論文の概要: Conservative Equilibrium Discovery in Offline Game-Theoretic Multiagent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.00374v1
- Date: Fri, 27 Feb 2026 23:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.162354
- Title: Conservative Equilibrium Discovery in Offline Game-Theoretic Multiagent Reinforcement Learning
- Title(参考訳): オフラインゲーム理論マルチエージェント強化学習における保守的平衡発見
- Authors: Austin A. Nguyen, Michael P. Wellman,
- Abstract要約: この問題は,オフライン学習制約下でのゲーム解決を目標とする混在型マルチエージェント環境において考慮する。
我々は、ゲーム力学の不確実性を定量化することによって、オンラインゲーム解決アプローチであるポリシー空間応答オラクル(PSRO)を拡張した。
我々は,PSROにおける戦略探索のガイドとなる,オフライン設定に適した新しいメタ戦略解法を提案する。
- 参考スコア(独自算出の注目度): 6.299504742623642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline learning of strategies takes data efficiency to its extreme by restricting algorithms to a fixed dataset of state-action trajectories. We consider the problem in a mixed-motive multiagent setting, where the goal is to solve a game under the offline learning constraint. We first frame this problem in terms of selecting among candidate equilibria. Since datasets may inform only a small fraction of game dynamics, it is generally infeasible in offline game-solving to even verify a proposed solution is a true equilibrium. Therefore, we consider the relative probability of low regret (i.e., closeness to equilibrium) across candidates based on the information available. Specifically, we extend Policy Space Response Oracles (PSRO), an online game-solving approach, by quantifying game dynamics uncertainty and modifying the RL objective to skew towards solutions more likely to have low regret in the true game. We further propose a novel meta-strategy solver, tailored for the offline setting, to guide strategy exploration in PSRO. Our incorporation of Conservatism principles from Offline reinforcement learning approaches for strategy Exploration gives our approach its name: COffeE-PSRO. Experiments demonstrate COffeE-PSRO's ability to extract lower-regret solutions than state-of-the-art offline approaches and reveal relationships between algorithmic components empirical game fidelity, and overall performance.
- Abstract(参考訳): 戦略のオフライン学習は、アルゴリズムをステートアクショントラジェクトリの固定データセットに制限することで、データの効率を極端に向上させる。
この問題は,オフライン学習制約下でのゲーム解決を目標とする混在型マルチエージェント環境において考慮する。
まず、この問題を候補均衡の選択の観点から検討する。
データセットは少数のゲームダイナミクスしか知らせないため、オフラインのゲーム解決では、提案された解が真の平衡であることを検証できないのが一般的である。
したがって、利用可能な情報に基づいて、候補者間での低後悔(すなわち、平衡に近い)の相対確率を考える。
具体的には、ゲーム力学の不確かさを定量化し、RLの目的を変更して、真のゲームに後悔する可能性が低いソリューションに目を向けることにより、オンラインゲーム解決アプローチであるPolicy Space Response Oracles (PSRO)を拡張します。
さらに,PSROにおける戦略探索のガイドとして,オフライン設定に適した新しいメタ戦略解法を提案する。
戦略探索のためのオフライン強化学習アプローチからの保守主義原則の組み入れは、我々のアプローチにその名を与える: CoffeE-PSRO。
実験では、CoffeE-PSROが最先端のオフラインアプローチよりも低レベルのソリューションを抽出し、アルゴリズムコンポーネントの経験的ゲーム忠実度と全体的なパフォーマンスの関係を明らかにする。
関連論文リスト
- Meta-Learning in Self-Play Regret Minimization [10.843705580746397]
両プレイヤーゼロサムゲームにおけるナッシュ均衡を近似する多くのアルゴリズムにおいて,オンライン最適化に対する一般的なアプローチを提案する。
これに基づいてフレームワークを、最先端の平衡近似アルゴリズムの基盤である、より困難なセルフプレイ設定に拡張する。
私たちのメタ学習アルゴリズムは、他の最先端の後悔の最小化アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2025-04-26T13:27:24Z) - Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks [59.50879251101105]
我々は、オフラインのRLとオフラインのMARLをカバーする、事前コンパイルされたデータセットの包括的なセットであるHokoffを提案する。
このデータは、Multiplayer Online Battle Arena(MOBA)ゲームとして認知されているHonor of Kingsに由来する。
また,ゲーム固有の階層的アクション空間に適した,新しいベースラインアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-20T05:38:50Z) - Bayesian Design Principles for Offline-to-Online Reinforcement Learning [50.97583504192167]
オフラインからオンラインへの微調整は、探索にコストがかかる、あるいは安全でない、現実世界のアプリケーションにとって極めて重要です。
本稿では,オフラインからオフラインまでの微調整のジレンマに対処する:エージェントが悲観的のままであれば,より良いポリシーを習得できないかもしれないが,楽観的になった場合,性能が突然低下する可能性がある。
このようなジレンマを解決するにはベイズ設計の原則が不可欠であることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:31:07Z) - Paths to Equilibrium in Games [6.812247730094933]
我々は、強化学習におけるポリシー更新に触発されたペアワイズ制約を満たす戦略の列について研究する。
我々の分析は、戦略的な更新を劣化させる報酬が、満足のいく道に沿って均衡に進むための鍵である、という直感的な洞察を明らかにした。
論文 参考訳(メタデータ) (2024-03-26T19:58:39Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Data-Scarce Identification of Game Dynamics via Sum-of-Squares Optimization [29.568222003322344]
マルチプレイヤーの正規形式ゲームにおけるゲームダイナミクスを識別するためのサイドインフォーム支援回帰(SIAR)フレームワークを提案する。
SIARは、SOS(sum-of-squares)最適化を用いて解決され、その結果、システムの真の力学に確実に収束する近似の階層となる。
SIARフレームワークは,未知のシステムがカオスであっても,通常のゲーム,広く知られているゲームダイナミクスのファミリー,強力なベンチマークの範囲で,プレーヤの挙動を正確に予測する。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Decentralized Optimistic Hyperpolicy Mirror Descent: Provably No-Regret
Learning in Markov Games [95.10091348976779]
我々はマルコフゲームにおいて、非定常的でおそらく敵対的な相手と遊べる単一のエージェントを制御する分散ポリシー学習について研究する。
我々は、新しいアルゴリズム、アンダーラインデ集中型アンダーラインハイプラインRpolicy munderlineIrror deunderlineScent (DORIS)を提案する。
DORISは、一般的な関数近似の文脈で$sqrtK$-regretを達成する。
論文 参考訳(メタデータ) (2022-06-03T14:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。