論文の概要: Implicit Strategic Optimization: Rethinking Long-Horizon Decision-Making in Adversarial Poker Environments
- arxiv url: http://arxiv.org/abs/2602.08041v1
- Date: Sun, 08 Feb 2026 16:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.946841
- Title: Implicit Strategic Optimization: Rethinking Long-Horizon Decision-Making in Adversarial Poker Environments
- Title(参考訳): インシシット戦略最適化:敵対ポーカー環境における長軸決定過程の再考
- Authors: Boyang Xia, Weiyou Tian, Qingnan Ren, Jiaqi Huang, Jie Xiao, Shuo Lu, Kai Wang, Lynn Ai, Eric Yang, Bill Shi,
- Abstract要約: Implicit Strategic Optimization(インプリシット・ストラテジック・最適化)は、大規模言語モデル(LLM)エージェントを学習するための予測フレームワークである。
我々は、文脈誤予測の数とともに支配的な用語がスケールする部分線型的文脈後悔と平衡収束を保証する。
6人プレイのNo-Limit Texas Hold'emとPokemonによる実験では、長期的なリターンが一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 9.732494293258828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language model (LLM) agents for adversarial games is often driven by episodic objectives such as win rate. In long-horizon settings, however, payoffs are shaped by latent strategic externalities that evolve over time, so myopic optimization and variation-based regret analyses can become vacuous even when the dynamics are predictable. To solve this problem, we introduce Implicit Strategic Optimization (ISO), a prediction-aware framework in which each agent forecasts the current strategic context and uses it to update its policy online. ISO combines a Strategic Reward Model (SRM) that estimates the long-run strategic value of actions with iso-grpo, a context-conditioned optimistic learning rule. We prove sublinear contextual regret and equilibrium convergence guarantees whose dominant terms scale with the number of context mispredictions; when prediction errors are bounded, our bounds recover the static-game rates obtained when strategic externalities are known. Experiments in 6-player No-Limit Texas Hold'em and competitive Pokemon show consistent improvements in long-term return over strong LLM and RL baselines, and graceful degradation under controlled prediction noise.
- Abstract(参考訳): 対戦型ゲームのための大規模言語モデル(LLM)エージェントの訓練は、しばしば勝利率などのエピソード目的によって進められる。
しかし、ロングホライゾン設定では、支払いは時間とともに進化する潜在的な戦略的外部性によって形成されるため、力学が予測可能であったとしても、心筋の最適化と変分に基づく後悔分析は空白となる。
この問題を解決するために,各エージェントが現在の戦略状況を予測し,そのポリシーをオンラインで更新する,予測対応フレームワークであるImplicit Strategic Optimization(ISO)を導入する。
ISOはストラテジック・リワード・モデル(Strategic Reward Model, SRM)と、コンテキスト条件付き楽観的な学習規則であるイソグロポ(iso-grpo)を組み合わせて、アクションの長期的戦略的価値を推定する。
予測誤差が有界な場合,我々の境界は,戦略的外部性が分かっている場合に得られる静的ゲームレートを回復する。
6-player No-Limit Texas Hold'em と競合する Pokemon の実験では、強い LLM と RL のベースラインに対する長期的なリターンが一貫して改善され、制御された予測ノイズ下での優雅な劣化が見られた。
関連論文リスト
- R2PS: Worst-Case Robust Real-Time Pursuit Strategies under Partial Observability [25.176860778665173]
本稿では, 部分観測可能条件下でのロバストなリアルタイム追従戦略(R2PS)について紹介する。
我々はまず,マルコフPEGを解くための従来の動的プログラミング(DP)アルゴリズムが,回避者による非同期動作の下で最適性を維持することを証明した。
次に,回避者の可能な位置に関する信念保存機構を提案し,DP追跡戦略を部分的に観察可能な場所に拡張する。
論文 参考訳(メタデータ) (2025-11-21T16:34:00Z) - Evolutionary Optimization of Deep Learning Agents for Sparrow Mahjong [0.0]
我々は、Sparrow MahjongでAI意思決定のためのディープラーニングベースのエージェントであるEvo-Sparrowを紹介する。
本モデルは,非決定論的かつ部分的に観察可能なゲーム環境において,ボード状態を評価し,意思決定ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-08-11T00:53:52Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Strategic Conformal Prediction [0.66567375919026]
機械学習モデルがデプロイされると、その予測はその環境を変えることができる。
本稿では,このような環境下での確実な定量化が可能な新たなフレームワークであるストラテジック・コンフォーマル予測を提案する。
論文 参考訳(メタデータ) (2024-11-03T15:06:05Z) - Paths to Equilibrium in Games [6.812247730094933]
我々は、強化学習におけるポリシー更新に触発されたペアワイズ制約を満たす戦略の列について研究する。
我々の分析は、戦略的な更新を劣化させる報酬が、満足のいく道に沿って均衡に進むための鍵である、という直感的な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-03-26T19:58:39Z) - Time your hedge with Deep Reinforcement Learning [0.0]
深層強化学習(DRL)は、市場情報とヘッジ戦略の割り当て決定の間のダイナミックな依存関係を作成することで、この課題に対処することができる。
i)行動決定に追加の文脈情報を使用し、(ii)共通の資産運用者の1日のラグ転倒を考慮し、ヘッジの再均衡を図るための観察と行動の間に1期間の遅れがあり、(iii)アンカードウォークフォワードトレーニングと呼ばれる反復的な試験方法により、安定性とロバスト性の観点から完全にテストされており、(iv)時系列のkフォールドクロスバリデーションと同様に、ヘッジの活用を可能にする。
論文 参考訳(メタデータ) (2020-09-16T06:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。