論文の概要: On the Benefits of Inducing Local Lipschitzness for Robust Generative
Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2107.00116v3
- Date: Mon, 15 Jan 2024 20:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 22:24:48.970265
- Title: On the Benefits of Inducing Local Lipschitzness for Robust Generative
Adversarial Imitation Learning
- Title(参考訳): 局所リプシッツ性誘発による頑健な生成的逆模倣学習の利点について
- Authors: Farzan Memarian, Abolfazl Hashemi, Scott Niekum, Ufuk Topcu
- Abstract要約: 判別器とジェネレータの局所リプシッツ性がGAILが学習したポリシーの堅牢性に及ぼす影響について検討した。
修正された目的が、より堅牢なポリシーを学習することにつながることを示す。
- 参考スコア(独自算出の注目度): 36.48610705372544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore methodologies to improve the robustness of generative adversarial
imitation learning (GAIL) algorithms to observation noise. Towards this
objective, we study the effect of local Lipschitzness of the discriminator and
the generator on the robustness of policies learned by GAIL. In many robotics
applications, the learned policies by GAIL typically suffer from a degraded
performance at test time since the observations from the environment might be
corrupted by noise. Hence, robustifying the learned policies against the
observation noise is of critical importance. To this end, we propose a
regularization method to induce local Lipschitzness in the generator and the
discriminator of adversarial imitation learning methods. We show that the
modified objective leads to learning significantly more robust policies.
Moreover, we demonstrate -- both theoretically and experimentally -- that
training a locally Lipschitz discriminator leads to a locally Lipschitz
generator, thereby improving the robustness of the resultant policy. We perform
extensive experiments on simulated robot locomotion environments from the
MuJoCo suite that demonstrate the proposed method learns policies that
significantly outperform the state-of-the-art generative adversarial imitation
learning algorithm when applied to test scenarios with noise-corrupted
observations.
- Abstract(参考訳): 本稿では,gailアルゴリズム(generative adversarial imitation learning)のロバスト性を改善する手法について検討する。
本研究の目的は,判別器とジェネレータの局所リプシッツ性がGAILが学習したポリシーの堅牢性に及ぼす影響を検討することである。
多くのロボティクス応用において、GAILによる学習方針は一般的に、環境からの観測がノイズによって損なわれる可能性があるため、テスト時に劣化した性能に悩まされる。
したがって,観測騒音に対する学習方針の強固化が重要である。
そこで本研究では,局所リプシッツネスを生成器に誘導する正規化法と,逆模倣学習法を判別する手法を提案する。
修正された目的が、より堅牢なポリシーを学ぶことにつながることを示す。
さらに,局所的なリプシッツ判別器の訓練は局所的なリプシッツ生成器につながり,結果として得られるポリシの堅牢性が向上することを示す。
本研究では,MuJoCo スイートを用いたロボットの移動環境のシミュレーション実験を行い,騒音の破損した観測シナリオに適用した場合に,現状の逆方向の擬似学習アルゴリズムを著しく上回った手法を実証した。
関連論文リスト
- Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Certifiably Robust Reinforcement Learning through Model-Based Abstract
Interpretation [10.69970450827617]
本稿では,機械チェック可能な正逆性証明を備えた強化学習フレームワークを提案する。
連続状態と動作空間を有する4つのMuJoCo環境上でCAROLを実験的に評価した。
CAROLは、最先端のロバストなRLアルゴリズムのポリシーと対照的に、 (i) 証明されたパフォーマンスの低いバウンドを著しく強化し、 (ii) 経験的な敵攻撃下での同等のパフォーマンスを示すポリシーを学習する。
論文 参考訳(メタデータ) (2023-01-26T19:42:58Z) - Risk-Sensitive Reinforcement Learning with Exponential Criteria [0.0]
我々は、堅牢な強化学習ポリシーを定義し、リスクに敏感な強化学習問題を定式化し、それらを近似する。
本稿では,近似更新を用いた乗算ベルマン方程式の解法に基づく新しいオンラインアクター・クリティカルアルゴリズムを提案する。
シミュレーション実験により,提案手法の実装,性能,ロバスト性を評価した。
論文 参考訳(メタデータ) (2022-12-18T04:44:38Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Imitation Learning from Noisy Demonstrations [81.67837507534001]
我々は,対称的損失を伴う分類リスクを最適化することにより,ロバストな模倣学習を実現することができることを示す。
擬似ラベルと協調学習を効果的に組み合わせた新しい模倣学習法を提案する。
連続制御ベンチマークによる実験結果から,本手法は最先端手法よりも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T10:41:37Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。