論文の概要: Offline Learning in Markov Games with General Function Approximation
- arxiv url: http://arxiv.org/abs/2302.02571v1
- Date: Mon, 6 Feb 2023 05:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:31:58.320893
- Title: Offline Learning in Markov Games with General Function Approximation
- Title(参考訳): 一般関数近似を用いたマルコフゲームにおけるオフライン学習
- Authors: Yuheng Zhang, Yu Bai, Nan Jiang
- Abstract要約: マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
- 参考スコア(独自算出の注目度): 22.2472618685325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study offline multi-agent reinforcement learning (RL) in Markov games,
where the goal is to learn an approximate equilibrium -- such as Nash
equilibrium and (Coarse) Correlated Equilibrium -- from an offline dataset
pre-collected from the game. Existing works consider relatively restricted
tabular or linear models and handle each equilibria separately. In this work,
we provide the first framework for sample-efficient offline learning in Markov
games under general function approximation, handling all 3 equilibria in a
unified manner. By using Bellman-consistent pessimism, we obtain interval
estimation for policies' returns, and use both the upper and the lower bounds
to obtain a relaxation on the gap of a candidate policy, which becomes our
optimization objective. Our results generalize prior works and provide several
additional insights. Importantly, we require a data coverage condition that
improves over the recently proposed "unilateral concentrability". Our condition
allows selective coverage of deviation policies that optimally trade-off
between their greediness (as approximate best responses) and coverage, and we
show scenarios where this leads to significantly better guarantees. As a new
connection, we also show how our algorithmic framework can subsume seemingly
different solution concepts designed for the special case of two-player
zero-sum games.
- Abstract(参考訳): 我々は,ゲームから事前収集したオフラインデータセットからnash平衡や相関平衡といった近似平衡を学習することを目的とした,markovゲームにおけるオフラインマルチエージェント強化学習(rl)について検討した。
既存の作品は相対的に制限された表モデルや線形モデルを検討し、それぞれの平衡を別々に扱う。
本研究では,マルコフゲームにおけるサンプル効率の高いオフライン学習のための最初のフレームワークを一般関数近似で提供し,すべての3つの平衡を統一的に扱う。
ベルマン一貫した悲観主義を用いて,政策のリターンの間隔推定を行い,上界と下界の両方を用いて候補政策のギャップを緩和し,最適化目標とする。
我々の結果は先行研究を一般化し、さらにいくつかの洞察を与える。
重要なことは、最近提案された"一方的な集中性"よりも改善されたデータカバレッジ条件が必要です。
我々の条件は、偏差政策を選択的にカバーし、その厳密さ(最も近い反応として)とカバレッジを最適にトレードオフし、これがより優れた保証につながるシナリオを示します。
新しい接続として、我々のアルゴリズムフレームワークは、2人プレイのゼロサムゲームの特別な場合のためにデザインされた一見異なるソリューション概念を合成する方法を示します。
関連論文リスト
- A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文 参考訳(メタデータ) (2023-09-28T06:18:34Z) - Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and
Inverse Learning [37.176741793213694]
我々は、アフィン・マルコフゲームと呼ばれるマルコフゲームのクラスを定式化し、アフィン報酬関数はプレイヤーの行動と一致する。
我々は,各プレイヤーが有理的に有理であり,ソフト・ベルマンポリシーを選択するような,新しい解の概念,ソフト・ベルマン均衡を導入する。
そこで我々は,プロジェクテッド・グラディエント・アルゴリズムを用いて,観測された状態-行動軌跡からプレイヤーの報酬パラメータを推定する逆ゲーム問題を解く。
論文 参考訳(メタデータ) (2023-03-31T22:50:47Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。