論文の概要: Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2407.12792v2
- Date: Sat, 14 Sep 2024 02:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 01:26:30.166810
- Title: Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning
- Title(参考訳): コントラスト学習による映像からの視覚的ロバストな敵対的模倣学習
- Authors: Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis,
- Abstract要約: C-LAIfOは、ビデオからの模倣学習のために設計された計算効率の良いアルゴリズムである。
我々は、視覚的相違のある専門家ビデオから模倣の問題を解析する。
我々のアルゴリズムはこの空間内で完全に模倣を行う。
- 参考スコア(独自算出の注目度): 9.240917262195046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose C-LAIfO, a computationally efficient algorithm designed for imitation learning from videos in the presence of visual mismatch between agent and expert domains. We analyze the problem of imitation from expert videos with visual discrepancies, and introduce a solution for robust latent space estimation using contrastive learning and data augmentation. Provided a visually robust latent space, our algorithm performs imitation entirely within this space using off-policy adversarial imitation learning. We conduct a thorough ablation study to justify our design and test C-LAIfO on high-dimensional continuous robotic tasks. Additionally, we demonstrate how C-LAIfO can be combined with other reward signals to facilitate learning on a set of challenging hand manipulation tasks with sparse rewards. Our experiments show improved performance compared to baseline methods, highlighting the effectiveness of C-LAIfO. To ensure reproducibility, we open source our code.
- Abstract(参考訳): C-LAIfOは、エージェントとエキスパートドメイン間の視覚的ミスマッチの存在下で、ビデオから学習を模倣するために設計された、計算効率の良いアルゴリズムである。
視覚的不一致を伴う専門家ビデオからの模倣の問題を解析し、コントラスト学習とデータ拡張を用いた頑健な潜在空間推定のためのソリューションを提案する。
視覚的に頑健な潜伏空間を与えるため,我々のアルゴリズムは,非政治的対向的模倣学習を用いて,この空間内で完全に模倣を行う。
我々は,高次元連続ロボット作業におけるC-LAIfOの設計と試験を正当化するために,徹底的なアブレーション研究を行っている。
さらに,C-LAIfOを他の報奨信号と組み合わせて,難易度の高い手操作タスクの学習を容易にする方法を示す。
実験の結果,C-LAIfOの有効性が示された。
再現性を確保するため、コードをオープンソースにしています。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Adversarial Imitation Learning from Visual Observations using Latent Information [9.240917262195046]
視覚的観察から模倣学習の課題に焦点をあて,学習エージェントが専門家の動画を唯一の学習源として利用できるようにする。
本研究では,非政治的敵対的模倣手法とエージェントの状態を観察シーケンスから学習した潜在的表現を組み合わせ,Relatnt Adversarial from Observationsというアルゴリズムを導入する。
高次元連続ロボットタスクの実験では、潜在空間におけるモデルフリーアプローチが最先端の性能と一致していることが示されている。
論文 参考訳(メタデータ) (2023-09-29T16:20:36Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning [6.523119805288132]
a) 学習対象を2つの対照的なサブタスクに分解し、空間的特徴と時間的特徴を強調し、(b) 階層的にそれを実行し、マルチスケールな理解を促進する。
論文 参考訳(メタデータ) (2020-11-23T08:05:39Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。