論文の概要: Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy For Visuomotor Imitation Learning
- arxiv url: http://arxiv.org/abs/2411.03294v2
- Date: Wed, 06 Nov 2024 17:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 11:17:41.015456
- Title: Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy For Visuomotor Imitation Learning
- Title(参考訳): 視覚的模倣学習のためのオブジェクト中心キーポイント逆ポリシーを用いたアウト・オブ・ディストリビューション・リカバリ
- Authors: George Jiayuan Gao, Tianyu Li, Nadia Figueroa,
- Abstract要約: 本稿では,ビジュモータ政策学習におけるアウト・オブ・ディストリビューションシナリオの課題を解決するために,オブジェクト中心のリカバリポリシフレームワークを提案する。
シミュレーションおよび実ロボット実験において,本フレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 2.6696199945489534
- License:
- Abstract: We propose an object-centric recovery policy framework to address the challenges of out-of-distribution (OOD) scenarios in visuomotor policy learning. Previous behavior cloning (BC) methods rely heavily on a large amount of labeled data coverage, failing in unfamiliar spatial states. Without relying on extra data collection, our approach learns a recovery policy constructed by an inverse policy inferred from object keypoint manifold gradient in the original training data. The recovery policy serves as a simple add-on to any base visuomotor BC policy, agnostic to a specific method, guiding the system back towards the training distribution to ensure task success even in OOD situations. We demonstrate the effectiveness of our object-centric framework in both simulation and real robot experiments, achieving an improvement of 77.7% over the base policy in OOD. Project Website: https://sites.google.com/view/ocr-penn
- Abstract(参考訳): 本研究では,自覚的政策学習におけるアウト・オブ・ディストリビューション(OOD)シナリオの課題に対処するためのオブジェクト指向リカバリポリシフレームワークを提案する。
従来の行動クローニング(BC)手法は大量のラベル付きデータカバレッジに大きく依存しており、不慣れな空間状態では失敗する。
提案手法は,オブジェクトキーポイント多様体勾配から推定される逆ポリシーによって構築された元のトレーニングデータからの回復ポリシーを,余分なデータ収集に頼らずに学習する。
回復政策は、特定の方法に依存せず、OOD状況においてもタスクの成功を確実にするために、トレーニングディストリビューションに向けてシステムを誘導する、基本的なBCポリシーへの簡単なアドオンとして機能する。
我々は,OODの基本方針よりも77.7%向上し,シミュレーションおよび実ロボット実験における対象中心フレームワークの有効性を実証した。
Project Webサイト: https://sites.google.com/view/ocr-penn
関連論文リスト
- Diverse Policies Recovering via Pointwise Mutual Information Weighted Imitation Learning [24.600297554387108]
本稿では,専門家データから多様な警察を回収する手法を提案する。
特に,軌道の潜在スタイルを推測あるいは割り当てた後,重み付け機構を組み込んだバニラの挙動クローニングを強化する。
提案手法の有効性を実験的に検証し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-10-21T11:33:14Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。
我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。
直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-04-05T15:52:34Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Back to the Manifold: Recovering from Out-of-Distribution States [20.36024602311382]
本稿では,エージェントをトレーニング多様体に戻すための回復策を提案する。
実際のロボットプラットフォーム上での操作実験により提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-18T15:10:58Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。