論文の概要: The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind
- arxiv url: http://arxiv.org/abs/2506.20664v1
- Date: Wed, 25 Jun 2025 17:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.898425
- Title: The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind
- Title(参考訳): マルチエージェント推論のための復号ベンチマークと心の理論
- Authors: Andrei Lupu, Timon Willi, Jakob Foerster,
- Abstract要約: Decryptoはマルチエージェント推論とToMのためのゲームベースのベンチマークである。
インタラクティブなToM実験を設計するための最初のプラットフォームである。
LLMのゲームプレイ能力は人間より遅れており,簡単な単語埋め込みが可能である。
- 参考スコア(独自算出の注目度): 8.341160422849969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) gain agentic abilities, they will have to navigate complex multi-agent scenarios, interacting with human users and other agents in cooperative and competitive settings. This will require new reasoning skills, chief amongst them being theory of mind (ToM), or the ability to reason about the "mental" states of other agents. However, ToM and other multi-agent abilities in LLMs are poorly understood, since existing benchmarks suffer from narrow scope, data leakage, saturation, and lack of interactivity. We thus propose Decrypto, a game-based benchmark for multi-agent reasoning and ToM drawing inspiration from cognitive science, computational pragmatics and multi-agent reinforcement learning. It is designed to be as easy as possible in all other dimensions, eliminating confounding factors commonly found in other benchmarks. To our knowledge, it is also the first platform for designing interactive ToM experiments. We validate the benchmark design through comprehensive empirical evaluations of frontier LLMs, robustness studies, and human-AI cross-play experiments. We find that LLM game-playing abilities lag behind humans and simple word-embedding baselines. We then create variants of two classic cognitive science experiments within Decrypto to evaluate three key ToM abilities. Surprisingly, we find that state-of-the-art reasoning models are significantly worse at those tasks than their older counterparts. This demonstrates that Decrypto addresses a crucial gap in current reasoning and ToM evaluations, and paves the path towards better artificial agents.
- Abstract(参考訳): 大きな言語モデル(LLM)がエージェント能力を得るには、複雑なマルチエージェントシナリオをナビゲートし、協調的かつ競争的な設定で人間や他のエージェントと対話する必要がある。
これは、心の理論(ToM)や、他のエージェントの「精神的」状態について推論する能力など、新しい推論スキルを必要とする。
しかし、既存のベンチマークは、狭い範囲、データリーク、飽和、相互作用性の欠如に悩まされているため、LLMにおけるToMや他のマルチエージェント能力はよく理解されていない。
そこで我々は,マルチエージェント推論のためのゲームベースのベンチマークであるDecryptoを提案し,認知科学,計算実用学,マルチエージェント強化学習からインスピレーションを得た。
他の全ての次元において可能な限り容易なように設計されており、他のベンチマークでよく見られる欠点を排除している。
我々の知る限り、インタラクティブなToM実験を設計するための最初のプラットフォームでもある。
我々は,フロンティアLSM,ロバストネス研究,人間とAIのクロスプレイ実験の総合的な評価を通じて,ベンチマーク設計を検証する。
LLMのゲームプレイ能力は人間より遅れており,簡単な単語埋め込みが可能である。
次に、Decrypto内の2つの古典的認知科学実験の変種を作成し、3つのToM能力を評価する。
意外なことに、最先端の推論モデルは、これらのタスクにおいて、古いタスクよりも大幅に悪化している。
これは、Decryptoが現在の推論とToM評価において重要なギャップに対処し、より良い人工知能への道を開くことを実証している。
関連論文リスト
- MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind [17.2922544295112]
MultiMindは、マルチモーダル情報をソーシャル推論エージェントに統合する最初のフレームワークである。
言語内容とともに表情と声調を処理し、心の理論(ToM)モデルを用いる。
このToMモデルとMCTS(Monte Carlo Tree Search)を組み合わせることで、エージェントは自身に対する疑念を最小限に抑えるコミュニケーション戦略を特定する。
論文 参考訳(メタデータ) (2025-04-25T03:12:43Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。
ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。
以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T00:32:38Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [116.09561564489799]
Solo Performance Promptingは、複数のペルソナと多ターンの自己コラボレーションをすることで、単一のLCMを認知的シナジストに変換する。
認知シナジスト(英: Cognitive Synergist)は、複雑なタスクにおける問題解決を強化するために、複数の心の強みと知識を協調的に結合するインテリジェントエージェントである。
より詳細な分析により,LLMに複数の微粒なペルソナを割り当てることによって,単一あるいは固定数のペルソナに比べて問題解決能力が向上することが示された。
論文 参考訳(メタデータ) (2023-07-11T14:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。