論文の概要: Adapt Your Body: Mitigating Proprioception Shifts in Imitation Learning
- arxiv url: http://arxiv.org/abs/2506.23944v1
- Date: Mon, 30 Jun 2025 15:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.118034
- Title: Adapt Your Body: Mitigating Proprioception Shifts in Imitation Learning
- Title(参考訳): 身体に適応する:模倣学習における先入観のシフトの軽減
- Authors: Fuhang Kuang, Jiacheng You, Yingdong Hu, Tong Zhang, Chuan Wen, Yang Gao,
- Abstract要約: 本研究は, プロプレッセプティブ状態の分布が, トレーニングと展開の間に大きく異なるという, プロプレッセプションシフト問題として, 根底にある課題を同定する。
デプロイ中に収集したロールアウトデータを利用してギャップを埋めるドメイン適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.807365963169516
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imitation learning models for robotic tasks typically rely on multi-modal inputs, such as RGB images, language, and proprioceptive states. While proprioception is intuitively important for decision-making and obstacle avoidance, simply incorporating all proprioceptive states leads to a surprising degradation in imitation learning performance. In this work, we identify the underlying issue as the proprioception shift problem, where the distributions of proprioceptive states diverge significantly between training and deployment. To address this challenge, we propose a domain adaptation framework that bridges the gap by utilizing rollout data collected during deployment. Using Wasserstein distance, we quantify the discrepancy between expert and rollout proprioceptive states and minimize this gap by adding noise to both sets of states, proportional to the Wasserstein distance. This strategy enhances robustness against proprioception shifts by aligning the training and deployment distributions. Experiments on robotic manipulation tasks demonstrate the efficacy of our method, enabling the imitation policy to leverage proprioception while mitigating its adverse effects. Our approach outperforms the naive solution which discards proprioception, and other baselines designed to address distributional shifts.
- Abstract(参考訳): ロボットタスクの模倣学習モデルは、通常、RGB画像、言語、固有受容状態などのマルチモーダル入力に依存している。
プロプレッセプションは意思決定や障害回避において直感的に重要であるが、すべてのプロプレッセプティブ状態を統合するだけで、模倣学習のパフォーマンスが驚くほど低下する。
本研究は, プロプレッセプティブ状態の分布が, トレーニングと展開の間に大きくばらつき, プロプレッセプションシフト問題として, その根底にある課題を識別するものである。
この課題に対処するために、デプロイ中に収集したロールアウトデータを利用してギャップを埋めるドメイン適応フレームワークを提案する。
ワッサースタイン距離を用いて、専門家とロールアウトの受容状態の相違を定量化し、ワッサーシュタイン距離に比例して両方の状態に雑音を加えることにより、このギャップを最小化する。
この戦略は、トレーニングとデプロイメントの分布を整列させることで、プロプレセプションシフトに対する堅牢性を高める。
ロボット操作タスクの実験は,提案手法の有効性を実証し,その悪影響を軽減しつつ,プロピロセプションの活用を可能にする。
提案手法は, 分布シフトに対処するために考案された, プロトリオセプションを排除したナイーブな解と, その他のベースラインに優れる。
関連論文リスト
- Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Rethinking Invariance Regularization in Adversarial Training to Improve Robustness-Accuracy Trade-off [7.202931445597171]
敵の訓練は、しばしばロバストネスのトレードオフに悩まされ、高いロバストネスを達成することは精度の犠牲となる。
非対称表現正規化逆行訓練(ARAT)を提案する。
ARATは、非対称な不斉損失と停止段階の演算と予測器を組み込み、勾配の衝突を回避し、混合分布問題を解決するためにスプリット・バッチノーム(BN)構造を組み込む。
論文 参考訳(メタデータ) (2024-02-22T15:53:46Z) - Regularizing Adversarial Imitation Learning Using Causal Invariance [8.4336760053489]
シミュレーション学習法は、マルコフ決定プロセスにおけるポリシーを専門家によるデモンストレーションのデータセットから推論するために用いられる。
本稿では,これらのモデルの正則化原理として因果不変性を用いることを提案する。
実測的な2次元設定における正規化定式化の有効性と,多数の高次元ロボット移動ベンチマークタスクの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-17T21:24:34Z) - Contrastive Distillation Is a Sample-Efficient Self-Supervised Loss
Policy for Transfer Learning [20.76863234714442]
本研究では,高い相互情報を持つ潜伏変数を示すコントラスト蒸留と呼ばれる自己監督的損失ポリシーを提案する。
本稿では,この手法が伝達学習の一般的な手法より優れていることを示すとともに,オンライン転送の計算処理をトレードオフする有用な設計軸を提案する。
論文 参考訳(メタデータ) (2022-12-21T20:43:46Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。