論文の概要: SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2401.03945v1
- Date: Mon, 8 Jan 2024 15:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 15:28:22.906850
- Title: SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems
- Title(参考訳): 音声エージェント:マルチモーダルマルチエージェントシステムを用いたヒューマンコミュニケーションシミュレーション
- Authors: Dong Zhang, Zhaowei Li, Pengyu Wang, Xin Zhang, Yaqian Zhou, Xipeng
Qiu
- Abstract要約: 大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
- 参考スコア(独自算出の注目度): 53.94772445896213
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human communication is a complex and diverse process that not only involves
multiple factors such as language, commonsense, and cultural backgrounds but
also requires the participation of multimodal information, such as speech.
Large Language Model (LLM)-based multi-agent systems have demonstrated
promising performance in simulating human society. Can we leverage LLM-based
multi-agent systems to simulate human communication? However, current LLM-based
multi-agent systems mainly rely on text as the primary medium. In this paper,
we propose SpeechAgents, a multi-modal LLM based multi-agent system designed
for simulating human communication. SpeechAgents utilizes multi-modal LLM as
the control center for individual agent and employes multi-modal signals as the
medium for exchanged messages among agents. Additionally, we propose
Multi-Agent Tuning to enhance the multi-agent capabilities of LLM without
compromising general abilities. To strengthen and evaluate the effectiveness of
human communication simulation, we build the Human-Communication Simulation
Benchmark. Experimental results demonstrate that SpeechAgents can simulate
human communication dialogues with consistent content, authentic rhythm, and
rich emotions and demonstrate excellent scalability even with up to 25 agents,
which can apply to tasks such as drama creation and audio novels generation.
Code and models will be open-sourced at https://github.
com/0nutation/SpeechAgents
- Abstract(参考訳): 人間のコミュニケーションは複雑で多様なプロセスであり、言語、常識、文化的な背景など複数の要素を含むだけでなく、音声などのマルチモーダルな情報も必要となる。
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
LLMベースのマルチエージェントシステムを利用して人間のコミュニケーションをシミュレートできるか?
しかし、現在のllmベースのマルチエージェントシステムは、主にテキストを主要な媒体としている。
本稿では,人間のコミュニケーションをシミュレートするマルチモーダルllmベースのマルチエージェントシステムであるspeechagentsを提案する。
SpeechAgentsは、個別エージェントの制御センタとしてマルチモーダルLLMを使用し、エージェント間のメッセージ交換媒体としてマルチモーダル信号を使用する。
さらに,汎用能力を損なうことなく,LLMのマルチエージェント能力を向上させるマルチエージェントチューニングを提案する。
人体通信シミュレーションの有効性を高め評価するために,人体通信シミュレーションベンチマークを構築した。
実験の結果,音声エージェントは,一貫した内容やリズム,リッチな感情を持った人間のコミュニケーション対話をシミュレートでき,最大25のエージェントでも優れたスケーラビリティを示し,ドラマ生成やオーディオノベル生成などのタスクに適用できることがわかった。
コードとモデルはhttps://github.com/でオープンソース化される。
com/0nutation/SpeechAgents
関連論文リスト
- Spontaneous Emergence of Agent Individuality through Social Interactions in LLM-Based Communities [0.0]
本稿では,Large Language Model (LLM) ベースのエージェントを用いて,ゼロからエージェントが出現することを検討する。
このマルチエージェントシミュレーションを解析することにより、社会的規範、協力、性格特性が自然に出現する方法について、貴重な新しい知見を報告する。
論文 参考訳(メタデータ) (2024-11-05T16:49:33Z) - Synergistic Simulations: Multi-Agent Problem Solving with Large Language Models [36.571597246832326]
大規模言語モデル(LLM)は,マルチエージェントシステムの開発を容易にする能力の実証がますます進んでいる。
本稿では,エージェントとワールドインタラクションをひとつのシミュレーションに統合し,複数のエージェントが協調して問題解決を行う方法を提案する。
我々は,2人のルームメイトとエージェントが協調してプログラミング作業を行う物理スタジオアパートの2つのシミュレーションを実装した。
論文 参考訳(メタデータ) (2024-09-14T21:53:35Z) - Very Large-Scale Multi-Agent Simulation in AgentScope [112.98986800070581]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。
高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。
また、多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースも提供します。
論文 参考訳(メタデータ) (2024-07-25T05:50:46Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。
DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。
その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2024-06-04T20:08:25Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - TESS: A Multi-intent Parser for Conversational Multi-Agent Systems with
Decentralized Natural Language Understanding Models [6.470108226184637]
マルチエージェントシステムは、ユーザ意図の自然言語理解を複雑にする。
本稿では,ユーザからの多目的発話を効率的に解析・オーケストレーションするパイプラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:39:23Z) - Large Language Model Enhanced Multi-Agent Systems for 6G Communications [94.45712802626794]
本稿では,自然言語を用いたコミュニケーション関連タスクを解くための,カスタマイズされたコミュニケーション知識とツールを備えたマルチエージェントシステムを提案する。
セマンティック通信システムの設計により,提案方式の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-13T02:35:57Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。