論文の概要: Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments
- arxiv url: http://arxiv.org/abs/2603.09337v1
- Date: Tue, 10 Mar 2026 08:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.143452
- Title: Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments
- Title(参考訳): スケーリングを超えて:ゼロサム環境におけるLSMの戦略的推論と迅速な意思決定能力を評価する
- Authors: Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu,
- Abstract要約: 本稿では,マルチエージェント評価フレームワークであるStrategic Tactical Agent Reasoning (STAR) Benchmarkを紹介する。
STARはターンベースとリアルタイムの両方の設定をサポートし、長期戦略計画の制御可能な分析を可能にする。
対話型環境における戦略的インテリジェンスは、推論の深さだけでなく、計画をタイムリーな行動に変換する能力にも依存することを示す。
- 参考スコア(独自算出の注目度): 15.538910160052964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved strong performance on static reasoning benchmarks, yet their effectiveness as interactive agents operating in adversarial, time-sensitive environments remains poorly understood. Existing evaluations largely treat reasoning as a single-shot capability, overlooking the challenges of opponent-aware decision-making, temporal constraints, and execution under pressure. This paper introduces Strategic Tactical Agent Reasoning (STAR) Benchmark, a multi-agent evaluation framework that assesses LLMs through 1v1 zero-sum competitive interactions, framing reasoning as an iterative, adaptive decision-making process. STAR supports both turn-based and real-time settings, enabling controlled analysis of long-horizon strategic planning and fast-paced tactical execution within a unified environment. Built on a modular architecture with a standardized API and fully implemented execution engine, STAR facilitates reproducible evaluation and flexible task customization. To move beyond binary win-loss outcomes, we introduce a Strategic Evaluation Suite that assesses not only competitive success but also the quality of strategic behavior, such as execution efficiency and outcome stability. Extensive pairwise evaluations reveal a pronounced strategy-execution gap: while reasoning-intensive models dominate turn-based settings, their inference latency often leads to inferior performance in real-time scenarios, where faster instruction-tuned models prevail. These results show that strategic intelligence in interactive environments depends not only on reasoning depth, but also on the ability to translate plans into timely actions, positioning STAR as a principled benchmark for studying this trade-off in competitive, dynamic settings.
- Abstract(参考訳): 大規模言語モデル (LLM) は静的推論ベンチマークにおいて高い性能を達成しているが, 対向的かつ時間に敏感な環境で動作する対話型エージェントとしての有効性はいまだによく分かっていない。
既存の評価は、推論を単一ショットの能力として扱い、相手が認識する意思決定、時間的制約、圧力下での実行といった課題を見落としている。
本稿では1v1ゼロサム競合相互作用によるLCMの評価を行うマルチエージェント評価フレームワークであるStrategic Tactical Agent Reasoning (STAR) Benchmarkを紹介する。
STARはターンベースとリアルタイムの両方の設定をサポートし、長期戦略計画の制御分析と統合環境での迅速な戦術実行を可能にする。
標準化されたAPIと完全に実装された実行エンジンを備えたモジュールアーキテクチャ上に構築されたSTARは、再現可能な評価と柔軟なタスクカスタマイズを容易にする。
2連勝結果を超えて、競争的な成功だけでなく、実行効率や結果安定性といった戦略的行動の質も評価する戦略評価スイートを導入する。
推論集約モデルがターンベースの設定を支配しているのに対して、推論遅延は、命令チューニングの高速なモデルが普及するリアルタイムシナリオにおいて、しばしばパフォーマンスが低下する。
これらの結果から, 対話環境における戦略的インテリジェンスは, 推論深度だけでなく, 計画をタイムリーな行動に変換する能力にも依存していることが示唆された。
関連論文リスト
- Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance [86.46794021499511]
戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。
SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。
SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
論文 参考訳(メタデータ) (2026-02-26T03:34:23Z) - BotzoneBench: Scalable LLM Evaluation via Graded AI Anchors [9.224594551677374]
大規模言語モデル(LLM)は、戦略的意思決定を必要とする対話型環境にますます多くデプロイされている。
近年のゲームベース評価では, LLM-vs-LLMトーナメントが採用されている。
本稿では,LLMの評価をAI(Artificial Intelligence)の固定階層に固定することで,線形時間絶対スキル測定が可能となることを示す。
論文 参考訳(メタデータ) (2026-01-22T13:15:08Z) - WGSR-Bench: Wargame-based Game-theoretic Strategic Reasoning Benchmark for Large Language Models [28.28739884703072]
本稿では,WGSR-Benchについて紹介する。WGSR-BenchはLarge Language Models (LLMs) の最初の戦略推論ベンチマークであり,WGSR-Benchをその評価環境として利用する。
我々は,戦略的推論の主要な能力を評価するために,環境意識,対人リスクモデリング,政策生成という3つの中核的課題に関するテストサンプルを設計する。
論文 参考訳(メタデータ) (2025-06-12T01:16:34Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - Strategy-Augmented Planning for Large Language Models via Opponent Exploitation [11.840105106884543]
LLMエージェントの攻撃的利用能力を大幅に向上させる2段階戦略拡張計画(SAP)フレームワークを提案する。
オフラインの段階では、明示的な戦略空間を構築し、その後戦略評価ネットワーク(SEN)をトレーニングするための戦略アウトカムペアデータを収集する。
オンラインフェーズでは、SAPは相手の戦略を動的に認識し、よく訓練されたSEN上で最良のレスポンス戦略を探索することにより、それらを強引に活用する。
論文 参考訳(メタデータ) (2025-05-13T11:41:10Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。