論文の概要: XIRL: Cross-embodiment Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.03911v1
- Date: Mon, 7 Jun 2021 18:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 13:04:26.791553
- Title: XIRL: Cross-embodiment Inverse Reinforcement Learning
- Title(参考訳): xirl: クロスエンボディメント逆強化学習
- Authors: Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette
Bohg, Debidatta Dwibedi
- Abstract要約: 本研究では,クロスエボディメント・デモビデオから視覚に基づく報酬関数を自動的に学習できることを示す。
具体的には,クロス・エボディメント・逆強化学習のための自己指導手法を提案する。
学習した報酬関数は、トレーニング中に見られる実施形態だけでなく、全く新しい実施形態へと一般化する。
- 参考スコア(独自算出の注目度): 25.793366206387827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the visual cross-embodiment imitation setting, in which agents
learn policies from videos of other agents (such as humans) demonstrating the
same task, but with stark differences in their embodiments -- shape, actions,
end-effector dynamics, etc. In this work, we demonstrate that it is possible to
automatically discover and learn vision-based reward functions from
cross-embodiment demonstration videos that are robust to these differences.
Specifically, we present a self-supervised method for Cross-embodiment Inverse
Reinforcement Learning (XIRL) that leverages temporal cycle-consistency
constraints to learn deep visual embeddings that capture task progression from
offline videos of demonstrations across multiple expert agents, each performing
the same task differently due to embodiment differences. Prior to our work,
producing rewards from self-supervised embeddings has typically required
alignment with a reference trajectory, which may be difficult to acquire. We
show empirically that if the embeddings are aware of task-progress, simply
taking the negative distance between the current state and goal state in the
learned embedding space is useful as a reward for training policies with
reinforcement learning. We find our learned reward function not only works for
embodiments seen during training, but also generalizes to entirely new
embodiments. We also find that XIRL policies are more sample efficient than
baselines, and in some cases exceed the sample efficiency of the same agent
trained with ground truth sparse rewards.
- Abstract(参考訳): エージェントが他のエージェント(人間など)のビデオからポリシーを学習し、同じタスクを実演するが、その実施形態(形状、アクション、エンド・エフェクター・ダイナミクスなど)が全く異なる視覚クロス・エンボディメント・イミテーション・セッティングを調査した。
本研究では,これらの差異に頑健な実演ビデオから視覚に基づく報酬関数を自動的に発見し,学習できることを実証する。
具体的には、時間的サイクル整合性制約を利用して、複数の専門家によるデモのオフラインビデオからタスクの進行を捉えた深い視覚的埋め込みを学習するクロス・エボディメント逆強化学習(XIRL)の自己指導手法を提案する。
我々の研究の前には、自己教師付き埋め込みから報酬を生成するには、通常、参照軌道と一致する必要がある。
埋め込みがタスクの進行に気付いていれば、学習した埋め込み空間における現在の状態と目標状態との負の距離を取るだけで、強化学習によるトレーニング政策の報奨となることを実証的に示す。
学習した報酬関数は、トレーニング中に見られる実施形態だけでなく、全く新しい実施形態へと一般化する。
また,XIRLポリシはベースラインよりもサンプリング効率が高く,場合によっては,基底真理スパース報酬をトレーニングした同一エージェントのサンプル効率を超える場合もある。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Representation Alignment from Human Feedback for Cross-Embodiment Reward Learning from Mixed-Quality Demonstrations [8.71931996488953]
本研究では,1つ以上の実施形態におけるビデオデモから報酬関数を学習したいと考える,クロス・エボディメント逆強化学習の課題について検討する。
本研究では,人間からのフィードバックを表現学習やアライメントに活用し,効果的なクロス・エボディメント学習を実現する技術について分析する。
論文 参考訳(メタデータ) (2024-08-10T18:24:14Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。