論文の概要: Robust Visual Imitation Learning with Inverse Dynamics Representations
- arxiv url: http://arxiv.org/abs/2310.14274v1
- Date: Sun, 22 Oct 2023 11:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:41:28.645177
- Title: Robust Visual Imitation Learning with Inverse Dynamics Representations
- Title(参考訳): 逆ダイナミクス表現を用いたロバスト視覚模倣学習
- Authors: Siyuan Li, Xun Wang, Rongchang Zuo, Kewu Sun, Lingfei Cui, Jishiyu
Ding, Peng Liu, Zhe Ma
- Abstract要約: 我々は,専門家環境と学習環境を整合させるために,逆ダイナミクス状態表現学習目標を開発する。
抽象状態表現を用いて、行動データと専門家データとの類似性を徹底的に測定する効果的な報酬関数を設計する。
提案手法は,ほとんどの環境においてほぼ熟練した性能を実現し,最先端のビジュアルIL法やロバストIL法を著しく上回っている。
- 参考スコア(独自算出の注目度): 32.806294517277976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) has achieved considerable success in solving complex
sequential decision-making problems. However, current IL methods mainly assume
that the environment for learning policies is the same as the environment for
collecting expert datasets. Therefore, these methods may fail to work when
there are slight differences between the learning and expert environments,
especially for challenging problems with high-dimensional image observations.
However, in real-world scenarios, it is rare to have the chance to collect
expert trajectories precisely in the target learning environment. To address
this challenge, we propose a novel robust imitation learning approach, where we
develop an inverse dynamics state representation learning objective to align
the expert environment and the learning environment. With the abstract state
representation, we design an effective reward function, which thoroughly
measures the similarity between behavior data and expert data not only
element-wise, but also from the trajectory level. We conduct extensive
experiments to evaluate the proposed approach under various visual
perturbations and in diverse visual control tasks. Our approach can achieve a
near-expert performance in most environments, and significantly outperforms the
state-of-the-art visual IL methods and robust IL methods.
- Abstract(参考訳): イミテーション学習(IL)は、複雑な逐次決定問題の解決にかなりの成功を収めた。
しかし、現在のil法は、主に学習ポリシーの環境が専門家データセットを収集する環境と同じであると仮定している。
したがって、これらの手法は、特に高次元画像観察における課題に対して、学習環境と専門家環境の差がわずかである場合に機能しない可能性がある。
しかし,現実のシナリオでは,対象とする学習環境において,専門家の軌跡を正確に収集する機会は稀である。
この課題に対処するために,我々は,エキスパート環境と学習環境を整合させる逆ダイナミクス状態表現学習目標を開発するための,新しいロバストな模倣学習手法を提案する。
抽象状態表現を用いて,行動データと専門家データとの類似度を,要素別だけでなく軌道レベルからも徹底的に測定する効果的な報酬関数を設計する。
様々な視覚的摂動および多様な視覚的制御タスクにおいて,提案手法の評価を行う。
私たちのアプローチは、ほとんどの環境でほぼ熟練したパフォーマンスを達成でき、最先端のvisual ilメソッドと堅牢なilメソッドを大幅に上回っています。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Incorporating simulated spatial context information improves the effectiveness of contrastive learning models [1.4179832037924995]
本稿では,既存のコントラスト学習手法を補完する,環境空間類似性(ESS)というユニークなアプローチを提案する。
ESSは部屋の分類や空間予測タスク、特に馴染みの無い環境での卓越した熟練を可能にします。
潜在的に変革的な応用は、ロボット工学から宇宙探査まで多岐にわたる。
論文 参考訳(メタデータ) (2024-01-26T03:44:58Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Imitation Learning from Observation through Optimal Transport [25.398983671932154]
イミテーション・ラーニング・オブ・オブ・オブ・オブ・観察(ILfO)は、学習者が専門家の行動を模倣しようとする環境である。
学習モデルや逆学習を必要とせずに、既存の手法を単純化して報酬関数を生成することができることを示す。
我々は,このシンプルな手法が様々な連続制御タスクに対して有効であることを示し,IlfO設定の技法の状態を超越していることを見出した。
論文 参考訳(メタデータ) (2023-10-02T20:53:20Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。