Fugu-MT 論文翻訳(概要): SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems

論文の概要: SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems

arxiv url: http://arxiv.org/abs/2401.03945v1
Date: Mon, 8 Jan 2024 15:01:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 15:28:22.906850
Title: SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems
Title（参考訳）: 音声エージェント:マルチモーダルマルチエージェントシステムを用いたヒューマンコミュニケーションシミュレーション
Authors: Dong Zhang, Zhaowei Li, Pengyu Wang, Xin Zhang, Yaqian Zhou, Xipeng Qiu
Abstract要約: 大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
参考スコア（独自算出の注目度）: 53.94772445896213
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Human communication is a complex and diverse process that not only involves multiple factors such as language, commonsense, and cultural backgrounds but also requires the participation of multimodal information, such as speech. Large Language Model (LLM)-based multi-agent systems have demonstrated promising performance in simulating human society. Can we leverage LLM-based multi-agent systems to simulate human communication? However, current LLM-based multi-agent systems mainly rely on text as the primary medium. In this paper, we propose SpeechAgents, a multi-modal LLM based multi-agent system designed for simulating human communication. SpeechAgents utilizes multi-modal LLM as the control center for individual agent and employes multi-modal signals as the medium for exchanged messages among agents. Additionally, we propose Multi-Agent Tuning to enhance the multi-agent capabilities of LLM without compromising general abilities. To strengthen and evaluate the effectiveness of human communication simulation, we build the Human-Communication Simulation Benchmark. Experimental results demonstrate that SpeechAgents can simulate human communication dialogues with consistent content, authentic rhythm, and rich emotions and demonstrate excellent scalability even with up to 25 agents, which can apply to tasks such as drama creation and audio novels generation. Code and models will be open-sourced at https://github. com/0nutation/SpeechAgents
Abstract（参考訳）: 人間のコミュニケーションは複雑で多様なプロセスであり、言語、常識、文化的な背景など複数の要素を含むだけでなく、音声などのマルチモーダルな情報も必要となる。大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。 LLMベースのマルチエージェントシステムを利用して人間のコミュニケーションをシミュレートできるか? しかし、現在のllmベースのマルチエージェントシステムは、主にテキストを主要な媒体としている。本稿では,人間のコミュニケーションをシミュレートするマルチモーダルllmベースのマルチエージェントシステムであるspeechagentsを提案する。 SpeechAgentsは、個別エージェントの制御センタとしてマルチモーダルLLMを使用し、エージェント間のメッセージ交換媒体としてマルチモーダル信号を使用する。さらに,汎用能力を損なうことなく,LLMのマルチエージェント能力を向上させるマルチエージェントチューニングを提案する。人体通信シミュレーションの有効性を高め評価するために,人体通信シミュレーションベンチマークを構築した。実験の結果,音声エージェントは,一貫した内容やリズム,リッチな感情を持った人間のコミュニケーション対話をシミュレートでき,最大25のエージェントでも優れたスケーラビリティを示し,ドラマ生成やオーディオノベル生成などのタスクに適用できることがわかった。コードとモデルはhttps://github.com/でオープンソース化される。 com/0nutation/SpeechAgents

関連論文リスト

Cued-Agent: A Collaborative Multi-Agent System for Automatic Cued Speech Recognition [17.451829471077858]
Cued Speech (CS) は、唇読取と手話による視覚コミュニケーションシステムであり、聴覚障害のある個人のためのコミュニケーションを容易にする。自動CS認識(ACSR)は、CSハンドジェスチャと唇の動きをAI駆動方式でテキストに変換することを目的としている。本稿では,ACSRのための協調型マルチエージェントシステムCued-Agentを提案する。
論文参考訳（メタデータ） (2025-08-01T07:40:39Z)
Augmenting Multi-Agent Communication with State Delta Trajectory [31.127137626348098]
本稿では,自然言語トークンとトークンワイド状態遷移トラジェクトリの両方をひとつのエージェントから別のエージェントに転送する新しい通信プロトコルを提案する。それぞれのトークンを生成した後のLSMの状態変化のシーケンスは、推論プロセスの裏側に隠された情報をよりよく反映できることがわかった。実験の結果,SDEを用いたマルチエージェントシステムでは,他の通信プロトコルと比較してSOTAの性能が向上していることがわかった。
論文参考訳（メタデータ） (2025-06-24T00:38:25Z)
MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind [17.2922544295112]
MultiMindは、マルチモーダル情報をソーシャル推論エージェントに統合する最初のフレームワークである。言語内容とともに表情と声調を処理し、心の理論(ToM)モデルを用いる。このToMモデルとMCTS(Monte Carlo Tree Search)を組み合わせることで、エージェントは自身に対する疑念を最小限に抑えるコミュニケーション戦略を特定する。
論文参考訳（メタデータ） (2025-04-25T03:12:43Z)
Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文参考訳（メタデータ） (2025-02-28T03:18:39Z)
LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation [66.52371505566815]
大規模言語モデル(LLM)ベースのAIエージェントは、人間のような知性を達成するために、大きな進歩を遂げた。 LMAgentは,マルチモーダル LLM に基づく大規模かつマルチモーダルなエージェント社会である。 LMAgentでは、友人とチャットする以外に、エージェントは自動で商品を閲覧、購入、レビューしたり、ライブストリーミングのeコマースを行うこともできる。
論文参考訳（メタデータ） (2024-12-12T12:47:09Z)
Spontaneous Emergence of Agent Individuality through Social Interactions in LLM-Based Communities [0.0]
本稿では,Large Language Model (LLM) ベースのエージェントを用いて,ゼロからエージェントが出現することを検討する。このマルチエージェントシミュレーションを解析することにより、社会的規範、協力、性格特性が自然に出現する方法について、貴重な新しい知見を報告する。
論文参考訳（メタデータ） (2024-11-05T16:49:33Z)
Synergistic Simulations: Multi-Agent Problem Solving with Large Language Models [36.571597246832326]
大規模言語モデル(LLM)は,マルチエージェントシステムの開発を容易にする能力の実証がますます進んでいる。本稿では,エージェントとワールドインタラクションをひとつのシミュレーションに統合し,複数のエージェントが協調して問題解決を行う方法を提案する。我々は,2人のルームメイトとエージェントが協調してプログラミング作業を行う物理スタジオアパートの2つのシミュレーションを実装した。
論文参考訳（メタデータ） (2024-09-14T21:53:35Z)
Very Large-Scale Multi-Agent Simulation in AgentScope [112.98986800070581]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。また、多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースも提供します。
論文参考訳（メタデータ） (2024-07-25T05:50:46Z)
Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。 LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文参考訳（メタデータ） (2024-06-09T21:58:32Z)
Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。 DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2024-06-04T20:08:25Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
TESS: A Multi-intent Parser for Conversational Multi-Agent Systems with Decentralized Natural Language Understanding Models [6.470108226184637]
マルチエージェントシステムは、ユーザ意図の自然言語理解を複雑にする。本稿では,ユーザからの多目的発話を効率的に解析・オーケストレーションするパイプラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-19T03:39:23Z)
Large Language Model Enhanced Multi-Agent Systems for 6G Communications [94.45712802626794]
本稿では,自然言語を用いたコミュニケーション関連タスクを解くための,カスタマイズされたコミュニケーション知識とツールを備えたマルチエージェントシステムを提案する。セマンティック通信システムの設計により,提案方式の有効性を検証した。
論文参考訳（メタデータ） (2023-12-13T02:35:57Z)
Building Cooperative Embodied Agents Modularly with Large Language Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。 C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文参考訳（メタデータ） (2023-07-05T17:59:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。