論文の概要: Lipschitzness Is All You Need To Tame Off-policy Generative Adversarial
Imitation Learning
- arxiv url: http://arxiv.org/abs/2006.16785v3
- Date: Wed, 19 Jan 2022 13:35:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 02:07:04.355098
- Title: Lipschitzness Is All You Need To Tame Off-policy Generative Adversarial
Imitation Learning
- Title(参考訳): リプシッツネスは、政界外の敵対的模倣学習を遅らせるために必要なもの
- Authors: Lionel Blond\'e, Pablo Strasser, Alexandros Kalousis
- Abstract要約: 本稿では,非政治的生成的対人模倣学習の事例について考察する。
学習した報酬関数を局所的なリプシッツ連続関数に強制することは、その手法がうまく動作するための正準非条件であることを示す。
- 参考スコア(独自算出の注目度): 72.94965109944707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of reinforcement learning in various domains,
these approaches remain, for the most part, deterringly sensitive to
hyper-parameters and are often riddled with essential engineering feats
allowing their success. We consider the case of off-policy generative
adversarial imitation learning, and perform an in-depth review, qualitative and
quantitative, of the method. We show that forcing the learned reward function
to be local Lipschitz-continuous is a sine qua non condition for the method to
perform well. We then study the effects of this necessary condition and provide
several theoretical results involving the local Lipschitzness of the
state-value function. We complement these guarantees with empirical evidence
attesting to the strong positive effect that the consistent satisfaction of the
Lipschitzness constraint on the reward has on imitation performance. Finally,
we tackle a generic pessimistic reward preconditioning add-on spawning a large
class of reward shaping methods, which makes the base method it is plugged into
provably more robust, as shown in several additional theoretical guarantees. We
then discuss these through a fine-grained lens and share our insights.
Crucially, the guarantees derived and reported in this work are valid for any
reward satisfying the Lipschitzness condition, nothing is specific to
imitation. As such, these may be of independent interest.
- Abstract(参考訳): 近年、様々な領域で強化学習が成功しているにもかかわらず、これらのアプローチはほとんどの場合、極度に過度なパラメータに敏感である。
本稿では,非政治的生成的対人模倣学習の事例を考察し,その方法の詳細な検証,質的,定量的な検証を行う。
学習報酬関数を局所的なリプシッツ連続に強制することは,その方法がうまく機能する正弦量子非条件であることを示す。
次に, この条件の効果を考察し, 状態値関数の局所リプシッツ性に関するいくつかの理論的結果を提供する。
我々はこれらの保証を、報酬に対するリプシッツ性制約の一貫した満足度が模倣性能に与える影響を証明した実証的な証拠で補完する。
最後に,いくつかの理論的な保証で示されるように,汎用的なペシミスティック報酬プリコンディショニングアドオンに対処し,多数の報酬シェーピング法を発生させる。
その後、細かなレンズでこれらを議論し、洞察を共有します。
重要なことに、この研究で導かれ、報告された保証は、リプシッツの条件を満たす報酬に対して有効であり、模倣に特有なものではない。
したがって、これらは独立した関心事である。
関連論文リスト
- Reward Certification for Policy Smoothed Reinforcement Learning [14.804252729195513]
強化学習(Reinforcement Learning, RL)は、安全クリティカルな分野において大きな成功を収めた。
近年の研究では、その堅牢性を高めるために「平滑な政策」を導入している。
報酬の総額を認定する証明可能な保証を確立することは依然として困難である。
論文 参考訳(メタデータ) (2023-12-11T15:07:58Z) - Tight Performance Guarantees of Imitator Policies with Continuous
Actions [45.3190496371625]
連続行動の場合、模倣者ポリシーの性能に関する理論的保証を提供する。
ノイズインジェクション(ノイズインジェクション)は、ノイズカーネルの適用後の環境において、エキスパートアクションが実行される一般的な手法である。
論文 参考訳(メタデータ) (2022-12-07T19:32:11Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Learning Robust Feedback Policies from Demonstrations [9.34612743192798]
閉ループ性能と境界(逆)摂動に対する堅牢性に関する実証可能な保証を示すフィードバック制御ポリシーを学ぶための新しいフレームワークを提案し、分析する。
これらのポリシーは、タスクやコスト関数、システムダイナミクスに関する事前知識のない専門家によるデモンストレーションから学習される。
論文 参考訳(メタデータ) (2021-03-30T19:11:05Z) - Off-Policy Interval Estimation with Lipschitz Value Iteration [29.232245317776723]
一般の連続した環境下での政治外評価のための区間境界を求めるための正当な手法を提案する。
リプシッツ値の反復法を導入し、単調に間隔を縮める。
論文 参考訳(メタデータ) (2020-10-29T07:25:56Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。