論文の概要: CHBench: A Cognitive Hierarchy Benchmark for Evaluating Strategic Reasoning Capability of LLMs
- arxiv url: http://arxiv.org/abs/2508.11944v1
- Date: Sat, 16 Aug 2025 07:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.472656
- Title: CHBench: A Cognitive Hierarchy Benchmark for Evaluating Strategic Reasoning Capability of LLMs
- Title(参考訳): CHBench: LLMの戦略的推論能力を評価するための認知階層ベンチマーク
- Authors: Hongtao Liu, Zhicheng Du, Zihe Wang, Weiran Shen,
- Abstract要約: ゲームプレイ能力は、大規模言語モデルの戦略的推論能力を評価する指標となる。
行動経済学の認知階層モデルに着想を得た新しい評価フレームワークであるCHBenchを提案する。
- 参考スコア(独自算出の注目度): 10.29314561183905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Game-playing ability serves as an indicator for evaluating the strategic reasoning capability of large language models (LLMs). While most existing studies rely on utility performance metrics, which are not robust enough due to variations in opponent behavior and game structure. To address this limitation, we propose \textbf{Cognitive Hierarchy Benchmark (CHBench)}, a novel evaluation framework inspired by the cognitive hierarchy models from behavioral economics. We hypothesize that agents have bounded rationality -- different agents behave at varying reasoning depths/levels. We evaluate LLMs' strategic reasoning through a three-phase systematic framework, utilizing behavioral data from six state-of-the-art LLMs across fifteen carefully selected normal-form games. Experiments show that LLMs exhibit consistent strategic reasoning levels across diverse opponents, confirming the framework's robustness and generalization capability. We also analyze the effects of two key mechanisms (Chat Mechanism and Memory Mechanism) on strategic reasoning performance. Results indicate that the Chat Mechanism significantly degrades strategic reasoning, whereas the Memory Mechanism enhances it. These insights position CHBench as a promising tool for evaluating LLM capabilities, with significant potential for future research and practical applications.
- Abstract(参考訳): ゲームプレイ能力は、大規模言語モデル(LLM)の戦略的推論能力を評価する指標となる。
既存の研究の多くは実用性能指標に依存しているが、対戦行動やゲーム構造の変化により十分に堅牢ではない。
この制限に対処するため,行動経済学の認知階層モデルに触発された新しい評価フレームワークである「CHBench」を提案する。
我々はエージェントが有界な合理性を持っているという仮説を立てる。
我々は,LLMの戦略的推論を3段階の体系的枠組みを用いて評価し,慎重に選択された15の正規形式ゲーム間での6つの最先端LPMの行動データを利用した。
実験により、LLMは様々な相手に対して一貫した戦略的推論レベルを示し、フレームワークの堅牢性と一般化能力を確認した。
また、戦略的推論性能に対する2つの重要なメカニズム(Chat MechanismとMemory Mechanism)の効果を解析した。
その結果,Chatメカニズムが戦略的推論を著しく低下させるのに対して,Memoryメカニズムはそれを向上させることがわかった。
これらの知見は、CHBenchをLLM能力を評価するための有望なツールとして位置づけ、将来の研究や実用化に有意義な可能性を秘めている。
関連論文リスト
- KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - Review of Case-Based Reasoning for LLM Agents: Theoretical Foundations, Architectural Components, and Cognitive Integration [0.0]
ケースベース推論(CBR)は、過去の経験を参照することによって、新しい問題を解決する戦略である。
本稿では、過去の経験を参照して新しい問題を解決する戦略であるケースベース推論(CBR)を大規模言語モデルに組み込む方法について考察する。
論文 参考訳(メタデータ) (2025-04-09T14:51:02Z) - Reflection-Bench: Evaluating Epistemic Agency in Large Language Models [10.801745760525838]
疫学エージェンシーは動的環境に関する信念を柔軟に構築し、適応し、監視する能力である。
リフレクション・ベンチ(Reflection-Bench)は,データ漏洩の長期的関連性と最小化を伴う7つのタスクからなるベンチマークである。
本研究は, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の開発など, 有望な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-10-21T17:59:50Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。