論文の概要: GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.23238v1
- Date: Fri, 22 May 2026 05:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.20609
- Title: GENSTRAT: Toward a Science of Strategic Reasoning in Large Language Models
- Title(参考訳): genSTRAT:大規模言語モデルにおける戦略的推論の科学を目指して
- Authors: Vartan Shadarevian, Kia Ghods, Alex Kenich, Anany Kotawala,
- Abstract要約: 大規模言語モデル(LLM)は、市場、オークション、入札設定における経済エージェントとして、ますます多くデプロイされている。
既存の戦略推論ベンチマークは、固定された標準ゲーム上のモデルを評価する。
これらの課題に対処するために、手続き的に生成された戦略的環境を利用するGENSTRATを導入する。
- 参考スコア(独自算出の注目度): 0.269220799495636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as economic agents in marketplaces, auctions, and bidding settings. Anticipating their behavior in any specific deployment is hard. Existing strategic-reasoning benchmarks evaluate models on fixed canonical games. These benchmarks may saturate as the frontier improves, and they do not allow evaluators to generalize with confidence from benchmark performance to the varied and messy strategic environments that actual deployments involve. We introduce GENSTRAT, which uses procedurally generated strategic environments to address these challenges. Concretely, we generate a distribution of two-player zero-sum imperfect-information card games. The generator can draw fresh games on demand, allowing for evergreen evaluation and resistance to contamination. We pair the game distribution with a capability-profile methodology that decomposes model competence across six axes (state space, temporal depth, information sensitivity, opponent modeling, risk, and brittleness). We also introduce a jaggedness measure of within-distribution smoothness that detects when a model's advantage jumps unpredictably between strategically similar games. We sample 50 benchmark games from a 2,000-game generated pool and evaluate nine frontier and open-weight LLMs in a head-to-head tournament with over 36,000 matches. Newer frontier-tier models score higher on average. Beyond that average, models with near-identical overall strength show qualitatively different capability profiles, and two of the top three leaderboard models (gpt-5 and claude) are noticeably more locally volatile than the third (gemini-3.1-pro), despite being close in overall strength. Together, the capability profile and the jaggedness measure give a deployment-relevant diagnostic that the overall ranking alone cannot provide.
- Abstract(参考訳): 大規模言語モデル(LLM)は、市場、オークション、入札設定における経済エージェントとして、ますます多くデプロイされている。
特定のデプロイメントで振る舞いを期待するのは困難です。
既存の戦略推論ベンチマークは、固定された標準ゲーム上のモデルを評価する。
これらのベンチマークは、フロンティアが改善するにつれて飽和する可能性があり、ベンチマークパフォーマンスから実際のデプロイメントにかかわる多様で混乱した戦略環境への信頼性で評価者が一般化を許さない。
これらの課題に対処するために、手続き的に生成された戦略的環境を利用するGENSTRATを導入する。
具体的には,2プレイヤーゼロサム不完全情報カードゲームの分布を生成する。
発電機は需要に応じて新鮮なゲームを描くことができ、常緑性の評価と汚染に対する抵抗が可能である。
ゲーム分布を、6つの軸(状態空間、時間深度、情報感度、相手モデリング、リスク、脆度)でモデル能力を分解する能力に注目する方法論と組み合わせる。
また,戦略的に類似したゲーム間でモデルの優位性が予測不可能に跳び上がることを検知する,内部分布の滑らかさのジャグネス尺度も導入する。
我々は2000ゲーム生成プールから50のベンチマークゲームをサンプリングし、36,000以上の試合で9つのフロンティアとオープンウェイトLLMを評価した。
新しいフロンティアモデルのスコアは平均より高い。
その平均を超えると、ほぼ同一の全体的な強度を持つモデルは定性的に異なる能力を示し、上位3つのリーダーボードモデルのうち2つのモデル(gpt-5とclaude)は、全体的な強度が近いにもかかわらず、第3のモデル(gemini-3.1-pro)よりも明らかに局所的な揮発性を持っている。
機能プロファイルとジャグネス測定を組み合わせることで、全体のランキングだけでは提供できないデプロイメント関連診断が可能になる。
関連論文リスト
- Agent Island: A Saturation- and Contamination-Resistant Benchmark from Multiagent Games [0.0]
我々は,言語モデルエージェントが相互協力,対立,説得のゲームで競うマルチプレイヤーシミュレーション環境であるエージェントアイランドを紹介した。
ベイズプラケット・ルーキーモデルでプレイヤーをランク付けし、プレイヤースキルの不確実性を定量化する。
49のユニークなモデルを含む999のゲームでは、openai/gpt-5.5が5.64で、第2位のモデルであるopenai/gpt-5.2と第3位のモデルであるopenai/gpt-5.3-codexの2.86と、ピアを圧倒している。
論文 参考訳(メタデータ) (2026-05-05T21:24:58Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - Model as a Game: On Numerical and Spatial Consistency for Generative Games [117.36098212829766]
本稿では,モデル・アズ・ア・ゲーム(MaaG)のメカニズムを十分に構築した上で,モデル・アズ・ア・ゲーム(MaaG)を真に構成するものを探るため,生成ゲームのパラダイムを再考する。
DiTアーキテクチャに基づいて,(1) LogicNetを統合してイベントトリガを決定する数値モジュール,(2) 探索領域のマップを維持する空間モジュール,(2) 生成中の位置情報を検索して連続性を確保する,という2つの特殊なモジュールを設計する。
論文 参考訳(メタデータ) (2025-03-27T05:46:15Z) - GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents [4.209869303518743]
大規模言語モデルの戦略的推論能力を評価するためのクロスドメインベンチマークであるGameBenchを紹介する。
戦略的推論能力の向上を目的とした2つの足場フレームワークとともに,GPT-3とGPT-4をベースとして評価を行った。
以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-07T00:28:43Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。