論文の概要: Sparks of Cooperative Reasoning: LLMs as Strategic Hanabi Agents
- arxiv url: http://arxiv.org/abs/2601.18077v1
- Date: Mon, 26 Jan 2026 02:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.619658
- Title: Sparks of Cooperative Reasoning: LLMs as Strategic Hanabi Agents
- Title(参考訳): 協力的推論の火花:戦略的ハナビ剤としてのLSM
- Authors: Mahesh Ramesh, Kaousheik Jayakumar, Aswinkumar Ramkumar, Pavan Thodima, Aniket Rege,
- Abstract要約: 2-5プレーヤゲームにおいて17の最先端LDMエージェントをベンチマークする。
エージェントは状態追跡のための内部動作メモリを維持可能であることを示す。
注釈付きトラジェクトリを備えた最初の公開データセットをリリースし、ユーティリティを移動します。
- 参考スコア(独自算出の注目度): 1.7764325874934432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative reasoning under incomplete information remains challenging for both humans and multi-agent systems. The card game Hanabi embodies this challenge, requiring theory-of-mind reasoning and strategic communication. We benchmark 17 state-of-the-art LLM agents in 2-5 player games and study the impact of context engineering across model scales (4B to 600B+) to understand persistent coordination failures and robustness to scaffolding: from a minimal prompt with only explicit card details (Watson setting), to scaffolding with programmatic, Bayesian-motivated deductions (Sherlock setting), to multi-turn state tracking via working memory (Mycroft setting). We show that (1) agents can maintain an internal working memory for state tracking and (2) cross-play performance between different LLMs smoothly interpolates with model strength. In the Sherlock setting, the strongest reasoning models exceed 15 points on average across player counts, yet still trail experienced humans and specialist Hanabi agents, both consistently scoring above 20. We release the first public Hanabi datasets with annotated trajectories and move utilities: (1) HanabiLogs, containing 1,520 full game logs for instruction tuning, and (2) HanabiRewards, containing 560 games with dense move-level value annotations for all candidate moves. Supervised and RL finetuning of a 4B open-weight model (Qwen3-Instruct) on our datasets improves cooperative Hanabi play by 21% and 156% respectively, bringing performance to within ~3 points of a strong proprietary reasoning model (o4-mini) and surpassing the best non-reasoning model (GPT-4.1) by 52%. The HanabiRewards RL-finetuned model further generalizes beyond Hanabi, improving performance on a cooperative group-guessing benchmark by 11%, temporal reasoning on EventQA by 6.4%, instruction-following on IFBench-800K by 1.7 Pass@10, and matching AIME 2025 mathematical reasoning Pass@10.
- Abstract(参考訳): 不完全な情報の下での協調推論は、人間とマルチエージェントの両方にとって依然として困難である。
カードゲーム「ハナビ」はこの挑戦を具現化し、理論的な推論と戦略的コミュニケーションを必要とする。
我々は、2-5プレイヤーゲームにおける17の最先端LCMエージェントをベンチマークし、永続的なコーディネーションの失敗と足場への堅牢性を理解するために、モデルスケール(4Bから600B+)にわたるコンテキストエンジニアリングの影響について調査する。
1) エージェントは状態追跡のための内部動作メモリを維持でき、(2) 異なるLLM間のクロスプレイ性能はモデル強度とスムーズに補間可能であることを示す。
シャーロック設定では、選手数で最強の推論モデルは平均15点を超えたが、経験豊富な人間や専門家のハナビが20点以上常に得点している。
1)ハナビログには1,520個のゲームログが含まれており,(2)ハナビリワードには560個のゲームと,すべての移動に対して高密度な移動レベル値アノテーションが含まれている。
我々のデータセット上の4Bオープンウェイトモデル(Qwen3-Instruct)の監督とRL微調整により、それぞれ21%と156%の協力的ハナビプレイが向上し、強力なプロプライエタリな推論モデル(o4-mini)の3ポイント以内のパフォーマンスが、最高の非推論モデル(GPT-4.1)を52%超えた。
HanabiRewards RL-finetunedモデルはさらに一般化され、共同グループゲスティングベンチマークのパフォーマンスが11%向上し、EventQAの時間的推論が6.4%向上し、IFBench-800Kの命令フォローが1.7 Pass@10で、AIME 2025の数学的推論がPass@10で一致した。
関連論文リスト
- Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image [58.14192385042352]
マルチモーダル・リワードベンチ2(MMRB2)は,マルチモーダル理解と(インターリーブされた)生成に対する報酬モデルの最初のベンチマークである。
MMRB2はテキスト・ツー・イメージ、画像編集、インターリーブド・ジェネレーション、マルチモーダル推論の4つのタスクにまたがる。
21のソースタスクにわたる23のモデルとエージェントから、タスク毎に1000のエキスパートアノテートされた好みペアを提供する。
論文 参考訳(メタデータ) (2025-12-18T18:56:04Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - LLM-Hanabi: Evaluating Multi-Agent Gameplays with Theory-of-Mind and Rationale Inference in Imperfect Information Collaboration Game [47.019077016616144]
本研究では,協調ゲーム「はなび」を用いて合理的推論とToMを評価する新しいベンチマーク「LM-Hanabi」を紹介する。
様々なモデルにおいて,ToMとゲーム内成功との間に有意な正の相関関係が認められた。
我々は,一階ToMの優先順位付けが将来のモデルの協調能力を向上するための有望な方向であると結論付けている。
論文 参考訳(メタデータ) (2025-10-06T16:17:24Z) - A Generalist Hanabi Agent [14.30496247213363]
従来のマルチエージェント強化学習(MARL)システムは、反復的な相互作用を通じて協調戦略を開発することができる。
MARLシステムは、訓練されたもの以外のどんな環境でもうまく機能しない。
これは人気のある2対5のカードゲームであるハナビベンチマークで特に見られる。
論文 参考訳(メタデータ) (2025-03-17T22:25:15Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - K-level Reasoning for Zero-Shot Coordination in Hanabi [26.38814779896388]
我々は,ハナビにおいて,競争力のあるZSCとアドホックなチームプレイのパフォーマンスを得ることができることを示す。
また、最適な応答を伴う同期kレベルの推論という新しい手法も導入する。
論文 参考訳(メタデータ) (2022-07-14T18:53:34Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。