論文の概要: MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind
- arxiv url: http://arxiv.org/abs/2504.18039v1
- Date: Fri, 25 Apr 2025 03:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.619968
- Title: MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind
- Title(参考訳): MultiMind:マルチモーダル推論によるウィールウルフエージェントの強化と心の理論
- Authors: Zheng Zhang, Nuoqian Xiao, Qi Chai, Deheng Ye, Hao Wang,
- Abstract要約: MultiMindは、マルチモーダル情報をソーシャル推論エージェントに統合する最初のフレームワークである。
言語内容とともに表情と声調を処理し、心の理論(ToM)モデルを用いる。
このToMモデルとMCTS(Monte Carlo Tree Search)を組み合わせることで、エージェントは自身に対する疑念を最小限に抑えるコミュニケーション戦略を特定する。
- 参考スコア(独自算出の注目度): 17.2922544295112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents have demonstrated impressive capabilities in social deduction games (SDGs) like Werewolf, where strategic reasoning and social deception are essential. However, current approaches remain limited to textual information, ignoring crucial multimodal cues such as facial expressions and tone of voice that humans naturally use to communicate. Moreover, existing SDG agents primarily focus on inferring other players' identities without modeling how others perceive themselves or fellow players. To address these limitations, we use One Night Ultimate Werewolf (ONUW) as a testbed and present MultiMind, the first framework integrating multimodal information into SDG agents. MultiMind processes facial expressions and vocal tones alongside verbal content, while employing a Theory of Mind (ToM) model to represent each player's suspicion levels toward others. By combining this ToM model with Monte Carlo Tree Search (MCTS), our agent identifies communication strategies that minimize suspicion directed at itself. Through comprehensive evaluation in both agent-versus-agent simulations and studies with human players, we demonstrate MultiMind's superior performance in gameplay. Our work presents a significant advancement toward LLM agents capable of human-like social reasoning across multimodal domains.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、戦略的推論や社会的騙しが不可欠であるWerewolfのような社会的推論ゲーム(SDG)において、印象的な能力を示した。
しかし、現在のアプローチは、人間が自然にコミュニケーションするために使用する表情や声のトーンといった重要なマルチモーダルの手がかりを無視して、テキスト情報に限られている。
さらに、既存のSDGエージェントは、他人が自分や仲間のプレイヤーをどう知覚するかをモデル化することなく、他のプレイヤーのアイデンティティを推測することに集中している。
これらの制限に対処するため、テストベッドとしてOne Night Ultimate Werewolf (ONUW)を使用し、SDGエージェントにマルチモーダル情報を統合する最初のフレームワークであるMultiMindを提示する。
MultiMindは、各プレイヤーの他者に対する疑念レベルを表現するために、心の理論(ToM)モデルを採用しながら、表情と音声のトーンを言語コンテンツと共に処理する。
このToMモデルとMCTS(Monte Carlo Tree Search)を組み合わせることで、エージェントは自身に対する疑念を最小限に抑えるコミュニケーション戦略を特定する。
エージェント対エージェントシミュレーションと人間プレイヤーを用いた研究の総合評価を通じて、ゲームプレイにおけるMultiMindの優れたパフォーマンスを実証する。
本研究は,マルチモーダルドメインにまたがる人間ライクな社会的推論が可能なLDMエージェントに対する顕著な進歩を示す。
関連論文リスト
- Unified Mind Model: Reimagining Autonomous Agents in the LLM Era [1.3812010983144802]
大規模言語モデル(LLM)は、最近、ドメイン、タスク、言語間で顕著な機能を示した。
我々は,自律エージェントの迅速な作成を促進するためのガイダンスを提供する,新しい理論認知アーキテクチャである統一マインドモデル(UMM)を提案する。
論文 参考訳(メタデータ) (2025-03-05T12:49:44Z) - Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - MuMA-ToM: Multi-modal Multi-Agent Theory of Mind [10.079620078670589]
マルチモーダルなマルチエージェント理論である MuMA-ToM を導入する。
本研究では,現実的な家庭環境における人々のマルチモーダル行動について,ビデオとテキストで記述する。
そして、他人の目標、信念、信念について質問する。
論文 参考訳(メタデータ) (2024-08-22T17:41:45Z) - Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models [52.894048516550065]
ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。
また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:24:31Z) - MineLand: Simulating Large-Scale Multi-Agent Interactions with Limited Multimodal Senses and Physical Needs [12.987019067098414]
大規模スケーラビリティ,マルチモーダル感覚の制限,物理的ニーズの3つの重要な特徴を導入することで,このギャップを埋めるマルチエージェントMinecraftシミュレータであるMineLandを提案する。
シミュレータは64以上のエージェントをサポートします。エージェントは視覚的,聴覚的,環境的な意識に制限があり,食物や資源といった物理的ニーズを満たすために積極的にコミュニケーションし,協力せざるを得ません。
実験により,シミュレータ,対応するベンチマーク,およびAIエージェントフレームワークが,より生態学的・ニュアンスな集団行動に寄与することが示された。
論文 参考訳(メタデータ) (2024-03-28T09:53:41Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。