論文の概要: Stackelberg Batch Policy Learning
- arxiv url: http://arxiv.org/abs/2309.16188v1
- Date: Thu, 28 Sep 2023 06:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 16:03:07.492349
- Title: Stackelberg Batch Policy Learning
- Title(参考訳): Stackelbergのバッチポリシ学習
- Authors: Wenzhuo Zhou, Annie Qu
- Abstract要約: バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
- 参考スコア(独自算出の注目度): 3.5426153040167754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Batch reinforcement learning (RL) defines the task of learning from a fixed
batch of data lacking exhaustive exploration. Worst-case optimality algorithms,
which calibrate a value-function model class from logged experience and perform
some type of pessimistic evaluation under the learned model, have emerged as a
promising paradigm for batch RL. However, contemporary works on this stream
have commonly overlooked the hierarchical decision-making structure hidden in
the optimization landscape. In this paper, we adopt a game-theoretical
viewpoint and model the policy learning diagram as a two-player general-sum
game with a leader-follower structure. We propose a novel stochastic
gradient-based learning algorithm: StackelbergLearner, in which the leader
player updates according to the total derivative of its objective instead of
the usual individual gradient, and the follower player makes individual updates
and ensures transition-consistent pessimistic reasoning. The derived learning
dynamic naturally lends StackelbergLearner to a game-theoretic interpretation
and provides a convergence guarantee to differentiable Stackelberg equilibria.
From a theoretical standpoint, we provide instance-dependent regret bounds with
general function approximation, which shows that our algorithm can learn a
best-effort policy that is able to compete against any comparator policy that
is covered by batch data. Notably, our theoretical regret guarantees only
require realizability without any data coverage and strong function
approximation conditions, e.g., Bellman closedness, which is in contrast to
prior works lacking such guarantees. Through comprehensive experiments, we find
that our algorithm consistently performs as well or better as compared to
state-of-the-art methods in batch RL benchmark and real-world datasets.
- Abstract(参考訳): バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正し、学習モデルの下である種の悲観的評価を行う、最悪の最適性アルゴリズムが、バッチRLの有望なパラダイムとして登場した。
しかし、この流れに関する現代の作品は、最適化の風景に隠れた階層的な意思決定構造を見落としている。
本稿では,ゲーム理論的な視点を採用し,政策学習図をリーダ・フォロワー構造を持つ2プレイヤー汎用ゲームとしてモデル化する。
提案手法は,通常の個々の勾配ではなく,目標の完全な導出に従って,リーダープレイヤーが更新する確率的勾配に基づく学習アルゴリズムであるstackelberglearnerを提案する。
派生学習力学は、StackelbergLearnerをゲーム理論の解釈に自然に結び付け、微分可能なStackelberg平衡に対する収束を保証する。
理論的な観点からは、一般的な関数近似を伴うインスタンス依存の後悔境界を提供し、アルゴリズムがバッチデータでカバーされる任意のコンパレータポリシーに対抗できる最善のエフォートポリシーを学習できることを示します。
特に、我々の理論的後悔の保証は、データカバレッジと強い関数近似条件、例えばベルマン閉包(bellman closedness)のない実現可能性のみを必要とする。
包括的実験により,本アルゴリズムはバッチrlベンチマークや実世界のデータセットにおいて,最先端の手法と同等以上の性能を発揮することがわかった。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。