論文の概要: LLM-Hanabi: Evaluating Multi-Agent Gameplays with Theory-of-Mind and Rationale Inference in Imperfect Information Collaboration Game
- arxiv url: http://arxiv.org/abs/2510.04980v1
- Date: Mon, 06 Oct 2025 16:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.977453
- Title: LLM-Hanabi: Evaluating Multi-Agent Gameplays with Theory-of-Mind and Rationale Inference in Imperfect Information Collaboration Game
- Title(参考訳): LLM-ハナビ:不完全な情報コラボレーションゲームにおけるマルチエージェントゲームの評価
- Authors: Fangzhou Liang, Tianshi Zheng, Chunkit Chan, Yauwai Yim, Yangqiu Song,
- Abstract要約: 本研究では,協調ゲーム「はなび」を用いて合理的推論とToMを評価する新しいベンチマーク「LM-Hanabi」を紹介する。
様々なモデルにおいて,ToMとゲーム内成功との間に有意な正の相関関係が認められた。
我々は,一階ToMの優先順位付けが将来のモデルの協調能力を向上するための有望な方向であると結論付けている。
- 参考スコア(独自算出の注目度): 47.019077016616144
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective multi-agent collaboration requires agents to infer the rationale behind others' actions, a capability rooted in Theory-of-Mind (ToM). While recent Large Language Models (LLMs) excel at logical inference, their ability to infer rationale in dynamic, collaborative settings remains under-explored. This study introduces LLM-Hanabi, a novel benchmark that uses the cooperative game Hanabi to evaluate the rationale inference and ToM of LLMs. Our framework features an automated evaluation system that measures both game performance and ToM proficiency. Across a range of models, we find a significant positive correlation between ToM and in-game success. Notably, first-order ToM (interpreting others' intent) correlates more strongly with performance than second-order ToM (predicting others' interpretations). These findings highlight that for effective AI collaboration, the ability to accurately interpret a partner's rationale is more critical than higher-order reasoning. We conclude that prioritizing first-order ToM is a promising direction for enhancing the collaborative capabilities of future models.
- Abstract(参考訳): 効果的なマルチエージェントコラボレーションは、エージェントが他人の行動の背後にある理性、すなわち理論・オブ・ミンド(ToM)に根ざした能力を推論する必要がある。
近年のLarge Language Models (LLMs) は論理的推論において優れているが、動的に協調的な設定で合理的に推論できる能力はいまだ探索されていない。
本研究は,LLMの合理的推論とToMを評価するために,協調ゲームであるハナビを用いた新しいベンチマークであるLLM-ハナビを紹介する。
本フレームワークは,ゲーム性能とToM習熟度の両方を測定する自動評価システムを備えている。
様々なモデルにおいて,ToMとゲーム内成功との間に有意な正の相関関係が認められた。
特に、一階ToM(他者の意図を解釈する)は、二階ToM(他者の解釈を予測する)よりもパフォーマンスに強く相関する。
これらの結果は、効果的なAIコラボレーションにおいて、パートナーの理論的根拠を正確に解釈する能力は、高次の推論よりも重要であることを強調している。
我々は,一階ToMの優先順位付けが将来のモデルの協調能力を向上するための有望な方向であると結論付けている。
関連論文リスト
- ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。
ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。
以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T00:32:38Z) - Theory of Mind for Multi-Agent Collaboration via Large Language Models [5.2767999863286645]
本研究では,多エージェント協調型テキストゲームにおけるLarge Language Models (LLMs) ベースのエージェントを,理論オブマインド (ToM) 推論タスクを用いて評価する。
LLMをベースとしたエージェント間の創発的協調行動と高次マインド理論の実証を行った。
論文 参考訳(メタデータ) (2023-10-16T07:51:19Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。