論文の概要: Data-Augmented Game Starts for Accelerating Self-Play Exploration in Imperfect Information Games
- arxiv url: http://arxiv.org/abs/2605.14379v1
- Date: Thu, 14 May 2026 05:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.629636
- Title: Data-Augmented Game Starts for Accelerating Self-Play Exploration in Imperfect Information Games
- Title(参考訳): 不完全な情報ゲームにおけるセルフプレイ探索の高速化のためのデータ強化ゲーム開始
- Authors: JB Lanier, Nathan Monette, Pierre Baldi, Roy Fox,
- Abstract要約: StarCraft、Dota、CounterStrikeのような大規模な不完全情報競合ゲームに対する近似平衡は、計算的に不可能である。
本稿では,オンライン探索の大幅な高速化を目的としたマルチエージェント起動状態サンプリング戦略を提案する。
我々は,不完全な情報ゲームにおける開始状態分布の増大が,偏りを生じさせることを示した。
- 参考スコア(独自算出の注目度): 9.1095646170628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding approximate equilibria for large-scale imperfect-information competitive games such as StarCraft, Dota, and CounterStrike remains computationally infeasible due to sparse rewards and challenging exploration over long horizons. In this paper, we propose a multi-agent starting-state sampling strategy designed to substantially accelerate online exploration in regularized policy-gradient game methods for two-player zero-sum (2p0s) games. Motivated by an assumption that offline demonstrations from skilled humans can provide good coverage of high-level strategies relevant to equilibrium play, we propose the initialization of reinforcement learning data collection at intermediate states sampled from offline data to facilitate exploration of strategically relevant subgames. Referring to this method as Data-Augmented Game Starts (DAGS), we perform experiments using synthetic datasets and analytically tractable, long-horizon control variants of two-player Kuhn Poker, Goofspiel, and a counterexample game designed to penalize biased beliefs over hidden information. Under fixed computational budgets, DAGS enables regularized policy gradient methods to achieve lower exploitability in games with significantly more challenging exploration. We show that augmenting starting state distributions when solving imperfect information games can lead to biased equilibria, and we provide a straightforward mitigation to this in the form of multi-task observation flags. Finally, we release a new set of benchmark environments that drastically increase exploration challenges and state counts in existing OpenSpiel games while keeping exploitability measurements analytically tractable.
- Abstract(参考訳): StarCraft、Dota、CounterStrikeのような大規模な不完全情報競争ゲームに対する近似平衡は、まばらな報酬と長い地平線を探索することによる計算不可能なままである。
本稿では,2プレイヤゼロサム (2p0s) ゲームに対する正規化ポリシー段階のゲーム手法において,オンライン探索を著しく高速化するマルチエージェント開始状態サンプリング戦略を提案する。
熟練した人間によるオフラインでのデモンストレーションが均衡プレイに関連する高レベルの戦略を十分にカバーできるという仮定により,オフラインデータからサンプリングした中間状態における強化学習データ収集の初期化を提案し,戦略的に関連するサブゲームの探索を容易にする。
この手法をData-Augmented Game Starts (DAGS) として,2人プレイヤのKuhn Poker, Goofspiel, および隠れ情報に対する偏りのある信念を解析的に抽出可能な長期制御変種を用いた実験を行った。
一定の計算予算の下では、DAGSは規則化されたポリシー勾配法により、より困難な探索を行うゲームにおいて、より低いエクスプロイラビリティを実現することができる。
本研究では,不完全な情報ゲームにおける開始状態分布の増大が,偏りの偏りを招き得ることを示すとともに,マルチタスク観測フラグの形でこれを緩和することを示す。
最後に,既存のOpenSpielゲームにおける探索課題と状態数を大幅に増加させるとともに,エクスプロイラビリティ測定を解析的に取得可能なベンチマーク環境を新たにリリースする。
関連論文リスト
- Conservative Equilibrium Discovery in Offline Game-Theoretic Multiagent Reinforcement Learning [6.299504742623642]
この問題は,オフライン学習制約下でのゲーム解決を目標とする混在型マルチエージェント環境において考慮する。
我々は、ゲーム力学の不確実性を定量化することによって、オンラインゲーム解決アプローチであるポリシー空間応答オラクル(PSRO)を拡張した。
我々は,PSROにおける戦略探索のガイドとなる,オフライン設定に適した新しいメタ戦略解法を提案する。
論文 参考訳(メタデータ) (2026-02-27T23:24:02Z) - Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。
Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。
実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-27T17:43:51Z) - Online Competitive Information Gathering for Partially Observable Trajectory Games [24.25139588281181]
ゲーム理論エージェントは、相手に関する情報を最適に収集する計画を立てなければならない。
我々は、軌道空間における競合情報収集行動を認めるPOSGの有限履歴/水平改良を定式化する。
これらのゲームにおいて,状態空間の粒子ベース推定を活用し,グラデーションプレイを行う合理的な軌道計画を計算するためのオンライン手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T17:45:58Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
ラベルなしのオフライン軌道データは、効率的な探索戦略を学ぶために利用することができる。
提案手法は,42の長軸,スパース・リワードタスクからなるスイートにおいて,従来戦略よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Data-Scarce Identification of Game Dynamics via Sum-of-Squares Optimization [29.568222003322344]
マルチプレイヤーの正規形式ゲームにおけるゲームダイナミクスを識別するためのサイドインフォーム支援回帰(SIAR)フレームワークを提案する。
SIARは、SOS(sum-of-squares)最適化を用いて解決され、その結果、システムの真の力学に確実に収束する近似の階層となる。
SIARフレームワークは,未知のシステムがカオスであっても,通常のゲーム,広く知られているゲームダイナミクスのファミリー,強力なベンチマークの範囲で,プレーヤの挙動を正確に予測する。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。