論文の概要: RAIL: A modular framework for Reinforcement-learning-based Adversarial
Imitation Learning
- arxiv url: http://arxiv.org/abs/2105.03756v1
- Date: Sat, 8 May 2021 18:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 11:50:54.611737
- Title: RAIL: A modular framework for Reinforcement-learning-based Adversarial
Imitation Learning
- Title(参考訳): RAIL:Reinforcement-learning-based Adversarial Imitation Learningのためのモジュラーフレームワーク
- Authors: Eddy Hudson and Garrett Warnell and Peter Stone
- Abstract要約: Reinforcement-learning-based Adversarial Imitation Learning (RAIL) という,組織的なモジュール型フレームワークを提案する。
SAIfO: SAC-based Adversarial Imitation from ObservationとSILEM(Skeletal Feature Compensation for Imitation Learning with Embodiment Mismatch)の2つの新しいifO(Imitation from Observation)アルゴリズムを作成します。
本稿では,SAIfOに着目し,OpenAI Gymのロコモーションタスクのスイートで評価し,FifOを実行する並列RAILアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 47.535110066013736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Adversarial Imitation Learning (AIL) algorithms have recently led to
state-of-the-art results on various imitation learning benchmarks, it is
unclear as to what impact various design decisions have on performance. To this
end, we present here an organizing, modular framework called
Reinforcement-learning-based Adversarial Imitation Learning (RAIL) that
encompasses and generalizes a popular subclass of existing AIL approaches.
Using the view espoused by RAIL, we create two new IfO (Imitation from
Observation) algorithms, which we term SAIfO: SAC-based Adversarial Imitation
from Observation and SILEM (Skeletal Feature Compensation for Imitation
Learning with Embodiment Mismatch). We go into greater depth about SILEM in a
separate technical report. In this paper, we focus on SAIfO, evaluating it on a
suite of locomotion tasks from OpenAI Gym, and showing that it outperforms
contemporaneous RAIL algorithms that perform IfO.
- Abstract(参考訳): Adversarial Imitation Learning (AIL)アルゴリズムは、最近、様々な模倣学習ベンチマークで最先端の結果をもたらしたが、様々な設計決定がパフォーマンスに与える影響は明らかではない。
そこで本稿では,既存のailアプローチの一般的なサブクラスを包含し,一般化する,強化学習に基づく相反的模倣学習(rail)と呼ばれるモジュール型フレームワークを提案する。
RAILが提案するビューを用いて,SAIfO(SAC-based Adversarial Imitation from Observation)とSILEM(Skeletal Feature Compensation for Imitation Learning with Embodiment Mismatch)という2つの新しいifO(Imitation from Observation)アルゴリズムを作成する。
私たちはSILEMについて、別の技術レポートでより深く掘り下げています。
本稿では,SAIfOに着目し,OpenAI Gymのロコモーションタスクのスイートで評価し,FifOを実行する並列RAILアルゴリズムよりも優れていることを示す。
関連論文リスト
- Adversarial Machine Unlearning [26.809123658470693]
本稿では,機械学習モデルに対する特定のトレーニングデータの影響を取り除くことを目的とした,機械学習の課題に焦点を当てた。
伝統的に、未学習アルゴリズムの開発は、ある種のプライバシー脅威である会員推論攻撃(MIA)と並行して実行される。
未学習アルゴリズムの設計にMIAを統合するゲーム理論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T20:07:22Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Skeletal Feature Compensation for Imitation Learning with Embodiment
Mismatch [51.03498820458658]
SILEMは,学習者や専門家から得られた骨格的特徴の違いを補う模倣学習手法である。
我々は、PyBulletのHalfCheetahとAntに基づいておもちゃのドメインを作成し、SILEMのこの種のエンボディメントミスマッチに対する利点を評価する。
また、より現実的な問題について定性的かつ定量的な結果を提供します。人間のデモンストレーションを観察して歩くために、シミュレーションされたヒューマノイドエージェントを教えます。
論文 参考訳(メタデータ) (2021-04-15T22:50:48Z) - Learn-Prune-Share for Lifelong Learning [25.678753894026357]
本稿では,破滅的な忘れ,パシモニー,知識再利用の課題を同時に解決する学習規則共有(LPS)アルゴリズムを提案する。
LPSはADMMベースのプルーニング戦略を通じて、ネットワークをタスク固有のパーティションに分割する。
これにより忘れられなくなり、パルシモニーは維持される。
論文 参考訳(メタデータ) (2020-12-13T04:05:16Z) - Wasserstein Distance guided Adversarial Imitation Learning with Reward
Shape Exploration [21.870750931559915]
We propose a new algorithm called Wasserstein Distance guided Adrial Imitation Learning (WDAIL) for promote the performance of mimicion learning (IL)。
実験結果から,MuJoCoの複雑な連続制御タスクにおいて,学習手順は極めて安定であり,高い性能が得られた。
論文 参考訳(メタデータ) (2020-06-05T15:10:00Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z) - Support-weighted Adversarial Imitation Learning [39.42395724783555]
Adversarial Imitation Learning (AIL) は、実証から専門家の行動を模倣する模倣学習手法のファミリーである。
本稿では,AILアルゴリズムを拡張した汎用フレームワークであるSupport-weighted Adversarial Imitation Learning (SAIL)を提案する。
提案手法は,幅広いベンチマーク制御タスクにおいて,ベースライン法よりも性能とトレーニングの安定性が向上することを示す。
論文 参考訳(メタデータ) (2020-02-20T15:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。