論文の概要: WGSR-Bench: Wargame-based Game-theoretic Strategic Reasoning Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.10264v1
- Date: Thu, 12 Jun 2025 01:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.508201
- Title: WGSR-Bench: Wargame-based Game-theoretic Strategic Reasoning Benchmark for Large Language Models
- Title(参考訳): WGSR-Bench:大規模言語モデルのためのゲーム理論戦略推論ベンチマーク
- Authors: Qiyue Yin, Pei Xu, Qiaozhe Li, Shengda Liu, Shengqi Shen, Tong Wang, Yihong Han, Xiaonan Zhao, Likun Yang, Shiyue Cao, Shiyu Qiu, Yuxuan Liu, Shizhao Yu, Lei Cui, Chengxin Yan, Jie Sun, Xiangquan Tang, Kaiqi Huang,
- Abstract要約: 本稿では,WGSR-Benchについて紹介する。WGSR-BenchはLarge Language Models (LLMs) の最初の戦略推論ベンチマークであり,WGSR-Benchをその評価環境として利用する。
我々は,戦略的推論の主要な能力を評価するために,環境意識,対人リスクモデリング,政策生成という3つの中核的課題に関するテストサンプルを設計する。
- 参考スコア(独自算出の注目度): 28.28739884703072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent breakthroughs in Large Language Models (LLMs) have led to a qualitative leap in artificial intelligence' s performance on reasoning tasks, particularly demonstrating remarkable capabilities in mathematical, symbolic, and commonsense reasoning. However, as a critical component of advanced human cognition, strategic reasoning, i.e., the ability to assess multi-agent behaviors in dynamic environments, formulate action plans, and adapt strategies, has yet to be systematically evaluated or modeled. To address this gap, this paper introduces WGSR-Bench, the first strategy reasoning benchmark for LLMs using wargame as its evaluation environment. Wargame, a quintessential high-complexity strategic scenario, integrates environmental uncertainty, adversarial dynamics, and non-unique strategic choices, making it an effective testbed for assessing LLMs' capabilities in multi-agent decision-making, intent inference, and counterfactual reasoning. WGSR-Bench designs test samples around three core tasks, i.e., Environmental situation awareness, Opponent risk modeling and Policy generation, which serve as the core S-POE architecture, to systematically assess main abilities of strategic reasoning. Finally, an LLM-based wargame agent is designed to integrate these parts for a comprehensive strategy reasoning assessment. With WGSR-Bench, we hope to assess the strengths and limitations of state-of-the-art LLMs in game-theoretic strategic reasoning and to advance research in large model-driven strategic intelligence.
- Abstract(参考訳): 近年のLarge Language Models(LLM)のブレークスルーは、推論タスクにおける人工知能のパフォーマンスの質的な飛躍をもたらし、特に数学的、記号的、常識的推論において顕著な能力を示している。
しかし、高度な人間の認知、戦略的推論、すなわち動的環境におけるマルチエージェント行動の評価、行動計画の定式化、適応戦略の重要な要素として、体系的な評価やモデル化は行われていない。
このギャップに対処するために,ウォーゲームを評価環境として利用した LLM の戦略推論ベンチマーク WGSR-Bench を紹介する。
極めて複雑な戦略シナリオであるウォーゲームは、環境の不確実性、敵対的ダイナミクス、および非普遍的な戦略選択を統合し、マルチエージェント意思決定、意図推論、および反事実推論においてLLMの能力を評価する効果的なテストベッドとなる。
WGSR-Benchは、戦略的推論の主要な能力を評価するために、環境状況認識、対人リスクモデリング、およびS-POEアーキテクチャとして機能するポリシー生成の3つのコアタスクに関するテストサンプルを設計した。
最後に、LLMベースのウォーゲームエージェントは、これらを総合的な戦略推論評価のために統合するように設計されている。
WGSR-Benchでは、ゲーム理論の戦略的推論における最先端のLSMの強みと限界を評価し、大規模モデル駆動型戦略知能の研究を進めたい。
関連論文リスト
- EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。