Fugu-MT 論文翻訳(概要): Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy For Visuomotor Imitation Learning

論文の概要: Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy For Visuomotor Imitation Learning

arxiv url: http://arxiv.org/abs/2411.03294v1
Date: Tue, 05 Nov 2024 17:41:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.697843
Title: Out-of-Distribution Recovery with Object-Centric Keypoint Inverse Policy For Visuomotor Imitation Learning
Title（参考訳）: 視覚的模倣学習のためのオブジェクト中心キーポイント逆ポリシーを用いたアウト・オブ・ディストリビューション・リカバリ
Authors: George Jiayuan Gao, Tianyu Li, Nadia Figueroa,
Abstract要約: 本稿では,ビジュモータ政策学習におけるアウト・オブ・ディストリビューションシナリオの課題を解決するために,オブジェクト中心のリカバリポリシフレームワークを提案する。シミュレーションおよび実ロボット実験において,本フレームワークの有効性を実証する。
参考スコア（独自算出の注目度）: 2.6696199945489534
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose an object-centric recovery policy framework to address the challenges of out-of-distribution (OOD) scenarios in visuomotor policy learning. Previous behavior cloning (BC) methods rely heavily on a large amount of labeled data coverage, failing in unfamiliar spatial states. Without relying on extra data collection, our approach learns a recovery policy constructed by an inverse policy inferred from object keypoint manifold gradient in the original training data. The recovery policy serves as a simple add-on to any base visuomotor BC policy, agnostic to a specific method, guiding the system back towards the training distribution to ensure task success even in OOD situations. We demonstrate the effectiveness of our object-centric framework in both simulation and real robot experiments, achieving an improvement of $\textbf{77.7\%}$ over the base policy in OOD. Project Website: https://sites.google.com/view/ocr-penn
Abstract（参考訳）: 本研究では,自覚的政策学習におけるアウト・オブ・ディストリビューション(OOD)シナリオの課題に対処するためのオブジェクト指向リカバリポリシフレームワークを提案する。従来の行動クローニング(BC)手法は大量のラベル付きデータカバレッジに大きく依存しており、不慣れな空間状態では失敗する。提案手法は,オブジェクトキーポイント多様体勾配から推定される逆ポリシーによって構築された元のトレーニングデータからの回復ポリシーを,余分なデータ収集に頼らずに学習する。回復政策は、特定の方法に依存せず、OOD状況においてもタスクの成功を確実にするために、トレーニングディストリビューションに向けてシステムを誘導する、基本的なBCポリシーへの簡単なアドオンとして機能する。我々は,OODの基本方針よりも$\textbf{77.7\%}$の改善を達成し,シミュレーションおよび実ロボット実験における対象中心フレームワークの有効性を実証した。 Project Webサイト: https://sites.google.com/view/ocr-penn

関連論文リスト

Accelerating Residual Reinforcement Learning with Uncertainty Estimation [20.516264459225734]
残留強化学習(Residual Reinforcement Learning, RL)は、修正行動を提供する軽量な残留ポリシーを学習することで、事前訓練されたポリシーを適用するための一般的なアプローチである。残留RLは基本方針全体を微調整するよりもサンプリング効率が高いが、既存の手法はスパース報酬に苦慮し、決定論的基本方針のために設計されている。本稿では, サンプル効率をさらに向上し, 基本方針に適合させるため, 残留RLの2つの改良点を提案する。
論文参考訳（メタデータ） (2025-06-21T03:18:01Z)
Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2～3倍向上する。
論文参考訳（メタデータ） (2025-06-09T07:32:52Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
Diverse Policies Recovering via Pointwise Mutual Information Weighted Imitation Learning [24.600297554387108]
本稿では,専門家データから多様な警察を回収する手法を提案する。特に,軌道の潜在スタイルを推測あるいは割り当てた後,重み付け機構を組み込んだバニラの挙動クローニングを強化する。提案手法の有効性を実験的に検証し,提案手法の有効性を検証した。
論文参考訳（メタデータ） (2024-10-21T11:33:14Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文参考訳（メタデータ） (2023-07-21T20:54:52Z)
Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文参考訳（メタデータ） (2023-05-25T21:54:22Z)
Goal-Conditioned Imitation Learning using Score-based Diffusion Policies [3.49482137286472]
スコアベース拡散モデル(SDM)に基づく新しいポリシー表現を提案する。我々はゴール・コンディションド・イミテーション・ラーニング(GCIL)の領域に新しい政策表現を適用した。直感的なガイダンスを用いて,遊びデータから目標に依存しないポリシーを学習するためにBESOをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-04-05T15:52:34Z)
Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文参考訳（メタデータ） (2022-09-18T22:03:55Z)
Back to the Manifold: Recovering from Out-of-Distribution States [20.36024602311382]
本稿では,エージェントをトレーニング多様体に戻すための回復策を提案する。実際のロボットプラットフォーム上での操作実験により提案手法の有効性を実証する。
論文参考訳（メタデータ） (2022-07-18T15:10:58Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文参考訳（メタデータ） (2021-07-03T07:01:23Z)
Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。 ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文参考訳（メタデータ） (2020-04-27T16:19:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。