論文の概要: A Joint Imitation-Reinforcement Learning Framework for Reduced Baseline
Regret
- arxiv url: http://arxiv.org/abs/2209.09446v1
- Date: Tue, 20 Sep 2022 03:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:43:03.905570
- Title: A Joint Imitation-Reinforcement Learning Framework for Reduced Baseline
Regret
- Title(参考訳): ベースラインレグレット削減のための共用模擬強化学習フレームワーク
- Authors: Sheelabhadra Dey, Sumedh Pendurkar, Guni Sharon, Josiah P. Hanna
- Abstract要約: 強化学習アルゴリズムは制御ポリシの最適化に使用することができる。
完全探索RLアルゴリズムは、トレーニング中にベースラインレベル以下の性能を低下させる可能性がある。
本稿では,JIRLと表記される共用模倣強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.375963692521024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In various control task domains, existing controllers provide a baseline
level of performance that -- though possibly suboptimal -- should be
maintained. Reinforcement learning (RL) algorithms that rely on extensive
exploration of the state and action space can be used to optimize a control
policy. However, fully exploratory RL algorithms may decrease performance below
a baseline level during training. In this paper, we address the issue of online
optimization of a control policy while minimizing regret w.r.t a baseline
policy performance. We present a joint imitation-reinforcement learning
framework, denoted JIRL. The learning process in JIRL assumes the availability
of a baseline policy and is designed with two objectives in mind \textbf{(a)}
leveraging the baseline's online demonstrations to minimize the regret w.r.t
the baseline policy during training, and \textbf{(b)} eventually surpassing the
baseline performance. JIRL addresses these objectives by initially learning to
imitate the baseline policy and gradually shifting control from the baseline to
an RL agent. Experimental results show that JIRL effectively accomplishes the
aforementioned objectives in several, continuous action-space domains. The
results demonstrate that JIRL is comparable to a state-of-the-art algorithm in
its final performance while incurring significantly lower baseline regret
during training in all of the presented domains. Moreover, the results show a
reduction factor of up to $21$ in baseline regret over a state-of-the-art
baseline regret minimization approach.
- Abstract(参考訳): 各種の制御タスクドメインでは、既存のコントローラは、おそらく最適ではないかもしれないが、ベースラインレベルのパフォーマンスを提供する。
状態と行動空間の広範な探索に依存する強化学習(RL)アルゴリズムは、制御ポリシーの最適化に使用できる。
しかし、完全探索RLアルゴリズムは、トレーニング中にベースラインレベル以下の性能を低下させる可能性がある。
本稿では,基本方針性能に対する後悔を最小限に抑えつつ,制御ポリシのオンライン最適化の問題に対処する。
本稿では,JIRLと表記される共用模倣強化学習フレームワークを提案する。
JIRLの学習プロセスはベースラインポリシーの可用性を前提としており、2つの目的を念頭に設計されている。
(a) ベースラインのオンラインデモンストレーションを活用して,トレーニング中のベースラインポリシーであるw.r.tを最小化する。
(b) 最終的にベースライン性能を超える。
JIRLは、最初にベースラインポリシーを模倣し、ベースラインからRLエージェントへ制御を徐々にシフトさせることで、これらの目的に対処する。
実験の結果,JIRLは複数の連続的な行動空間領域において,上記の目的を効果的に達成できることが示された。
その結果、JIRLは最終性能において最先端のアルゴリズムに匹敵するが、提示されたすべてのドメインでのトレーニングにおいて、ベースラインの後悔は著しく低いことが示されている。
さらに, 最先端のベースライン後悔最小化アプローチに対して, ベースライン後悔を最大21ドル削減する要因が示された。
関連論文リスト
- Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文 参考訳(メタデータ) (2024-05-02T14:31:52Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Behavior Prior Representation learning for Offline Reinforcement
Learning [23.200489608592694]
状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-11-02T04:15:20Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Optimal Control-Based Baseline for Guided Exploration in Policy Gradient Methods [8.718494948845711]
本稿では, 深層強化学習におけるポリシー勾配法に対して, 最適制御ベースライン関数を提案する。
我々は,ロボット学習タスクのベースラインを検証し,ガイド付き探索におけるその効果を示す。
論文 参考訳(メタデータ) (2020-11-04T00:11:56Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。