論文の概要: Evaluating Large Language Models as Live Strategic Agents: Provider Performance, Hybrid Decomposition, and Operational Gaps in Timed Risk Play
- arxiv url: http://arxiv.org/abs/2605.22238v1
- Date: Thu, 21 May 2026 09:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.549107
- Title: Evaluating Large Language Models as Live Strategic Agents: Provider Performance, Hybrid Decomposition, and Operational Gaps in Timed Risk Play
- Title(参考訳): ライブストラテジックエージェントとしての大規模言語モデルの評価:タイムドリスクプレイにおける提供者性能、ハイブリッド分解、運用ギャップ
- Authors: H. C. Ekne,
- Abstract要約: 我々は,大規模言語モデルが明確な勝利目標と繰り返し計画と実行サイクルで実際にどのように振る舞うかを研究する。
その結果、ライブエージェントのパフォーマンスは、客観的なランタイムトラッキング、実行コンバージョン、コスト、信頼性に依存していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Static benchmarks capture only part of how large language models behave in practice. Real systems place models inside repeated loops with time limits, formatting constraints, and failure modes. We study this setting in a timed multi-phase Risk environment with explicit victory targets and repeated planning and execution cycles. In a replicated 32-game cross-provider championship under frozen rules, gemini-3.1-pro-preview won 20 of 32 games against gpt-5.1, claude-opus-4-7, and kimi-k2.6, and the pooled winner distribution differs strongly from an equal-strength null (p approx 1.5 x 10^-5). We then separate planning from execution by standardizing execution on a cheaper Gemini Flash scaffold. Under this design, a pooled 32-game planner bakeoff is consistent with near-equality (p approx 0.821), which indicates that much of the earlier provider spread came from end-to-end system behavior rather than planning alone. To study mechanism, we analyze saved planning and execution traces from the provider championship. Gemini refers to the terminal objective far more often than the other models and increases that focus as victory approaches. Gemini also converts more turns into deep conquest chains, even though it is not the cleanest runtime. These results show that live-agent performance depends on objective tracking, execution conversion, cost, and runtime reliability, and they support evaluating LLMs as components in bounded workflows rather than as isolated benchmark respondents.
- Abstract(参考訳): 静的ベンチマークは、大規模な言語モデルが実際にどのように振る舞うかのごく一部だけをキャプチャする。
実際のシステムは、時間制限、フォーマット制約、障害モードを備えた繰り返しループ内にモデルを配置する。
我々は、この設定を、明確な勝利目標と計画と実行サイクルを繰り返した、タイムド・マルチフェーズ・リスク環境で研究する。
冷凍ルール下の32ゲームクロスプロジェクター選手権では、gemini-3.1-pro-previewが32ゲーム中20ゲームでgpt-5.1、claude-opus-4-7、kimi-k2.6に勝利し、プールされた勝者分布は等しい強度のヌル(papprox 1.5 x 10^-5)と強く異なる。
次に、より安価なGemini Flashの足場での実行を標準化することで、実行から計画を切り離します。
この設計の下では、プールされた32ゲームプランナーのベークオフは、ほぼ平等(papprox 0.821)と一致しており、これは、初期の提供者の多くが、単独で計画するのではなく、エンドツーエンドのシステム動作から来ていることを示している。
メカニズムを研究するために,プロバイダのチャンピオンシップから保存された計画と実行トレースを分析した。
Geminiは端末の目的を他のモデルよりもはるかに頻繁に言及し、勝利が近づくにつれて焦点を絞る。
Geminiはまた、最もクリーンなランタイムではないにもかかわらず、より多くのターンを深い征服チェーンに変換する。
これらの結果から,ライブエージェントのパフォーマンスは,客観的なトラッキング,実行の変換,コスト,実行時の信頼性に依存することが明らかとなった。
関連論文リスト
- ReCoVer: Resilient LLM Pre-Training System via Fault-Tolerant Collective and Versatile Workload [18.933354857797056]
大規模GPUクラスタ上での大規模言語モデルの事前トレーニングは、ハードウェア障害を稀ではなく日常的なものにしている。
一つの不変量を保持するレジリエントな事前学習システムであるReCoVerを提案する。
チェックポイントとリスタートのベースラインと比較して、ReCoVerは連続する障害の後、より効果的なスループットを2.23タイムで示す。
論文 参考訳(メタデータ) (2026-05-11T20:28:31Z) - GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives [48.545980031973556]
GAMBITは、インポスタ検出器を評価するための3つの評価モードと2つの独立したスコアを持つベンチマークである。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
論文 参考訳(メタデータ) (2026-05-09T16:07:23Z) - Revisiting Auxiliary Losses for Conditional Depth Routing: An Empirical Study [31.968379218484746]
ゲート決定は、言語モデリング(LM)の損失に影響を与える前に、多くのレイヤを通して伝播しなければならない。
補助的な損失はトレーニングを安定させるために積み重ねられることが多いが、それらの間の相互作用、特に予測的な補助的なスコアと明示的なスコアの監督の間の相互作用は、制御された条件下で体系的に比較されていない。
これは、後続のすべてのレイヤがフルに実行されると仮定する、オフポリティのオラクルラベルにトレースしますが、ゲートされた実行ルートはフルに1分しかありません。
論文 参考訳(メタデータ) (2026-04-19T03:20:40Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - AlphaZeroES: Direct score maximization outperforms planning loss minimization [61.17702187957206]
実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2024-06-12T23:00:59Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。