論文の概要: LLM-Hanabi: Evaluating Multi-Agent Gameplays with Theory-of-Mind and Rationale Inference in Imperfect Information Collaboration Game
- arxiv url: http://arxiv.org/abs/2510.04980v1
- Date: Mon, 06 Oct 2025 16:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.977453
- Title: LLM-Hanabi: Evaluating Multi-Agent Gameplays with Theory-of-Mind and Rationale Inference in Imperfect Information Collaboration Game
- Title(参考訳): LLM-ハナビ:不完全な情報コラボレーションゲームにおけるマルチエージェントゲームの評価
- Authors: Fangzhou Liang, Tianshi Zheng, Chunkit Chan, Yauwai Yim, Yangqiu Song,
- Abstract要約: 本研究では,協調ゲーム「はなび」を用いて合理的推論とToMを評価する新しいベンチマーク「LM-Hanabi」を紹介する。
様々なモデルにおいて,ToMとゲーム内成功との間に有意な正の相関関係が認められた。
我々は,一階ToMの優先順位付けが将来のモデルの協調能力を向上するための有望な方向であると結論付けている。
- 参考スコア(独自算出の注目度): 47.019077016616144
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective multi-agent collaboration requires agents to infer the rationale behind others' actions, a capability rooted in Theory-of-Mind (ToM). While recent Large Language Models (LLMs) excel at logical inference, their ability to infer rationale in dynamic, collaborative settings remains under-explored. This study introduces LLM-Hanabi, a novel benchmark that uses the cooperative game Hanabi to evaluate the rationale inference and ToM of LLMs. Our framework features an automated evaluation system that measures both game performance and ToM proficiency. Across a range of models, we find a significant positive correlation between ToM and in-game success. Notably, first-order ToM (interpreting others' intent) correlates more strongly with performance than second-order ToM (predicting others' interpretations). These findings highlight that for effective AI collaboration, the ability to accurately interpret a partner's rationale is more critical than higher-order reasoning. We conclude that prioritizing first-order ToM is a promising direction for enhancing the collaborative capabilities of future models.
- Abstract(参考訳): 効果的なマルチエージェントコラボレーションは、エージェントが他人の行動の背後にある理性、すなわち理論・オブ・ミンド(ToM)に根ざした能力を推論する必要がある。
近年のLarge Language Models (LLMs) は論理的推論において優れているが、動的に協調的な設定で合理的に推論できる能力はいまだ探索されていない。
本研究は,LLMの合理的推論とToMを評価するために,協調ゲームであるハナビを用いた新しいベンチマークであるLLM-ハナビを紹介する。
本フレームワークは,ゲーム性能とToM習熟度の両方を測定する自動評価システムを備えている。
様々なモデルにおいて,ToMとゲーム内成功との間に有意な正の相関関係が認められた。
特に、一階ToM(他者の意図を解釈する)は、二階ToM(他者の解釈を予測する)よりもパフォーマンスに強く相関する。
これらの結果は、効果的なAIコラボレーションにおいて、パートナーの理論的根拠を正確に解釈する能力は、高次の推論よりも重要であることを強調している。
我々は,一階ToMの優先順位付けが将来のモデルの協調能力を向上するための有望な方向であると結論付けている。
関連論文リスト
- Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind [8.740788873949471]
大規模言語モデル(LLM)は急速に発展し、汎用タスクと専門タスクの両方に広く応用されている。
意図や指示が不正確に伝達されるとき、彼らは依然として、真のユーザニーズを理解し、応答するのに苦労しています。
論文 参考訳(メタデータ) (2026-02-14T16:01:59Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Effects of Theory of Mind and Prosocial Beliefs on Steering Human-Aligned Behaviors of LLMs in Ultimatum Games [17.615991993062455]
交渉課題におけるエージェント的行動と人間の規範を整合させる上での思考理論(ToM)推論の役割について検討する。
ToM推論は、行動整合性、意思決定整合性、交渉結果を高める。
本研究は,人間とAIの相互作用と協調的意思決定の促進におけるToMの役割の理解に寄与する。
論文 参考訳(メタデータ) (2025-05-30T06:23:52Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。
ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。
以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T00:32:38Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.2767999863286645]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文 参考訳(メタデータ) (2023-10-16T07:51:19Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。