論文の概要: Denoising-based Contractive Imitation Learning
- arxiv url: http://arxiv.org/abs/2503.15918v1
- Date: Thu, 20 Mar 2025 07:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:32.213127
- Title: Denoising-based Contractive Imitation Learning
- Title(参考訳): Denoising-based Contractive Imitation Learning
- Authors: Macheng Shen, Jishen Peng, Zefang Huang,
- Abstract要約: デノナイジング機構は状態遷移写像の収縮特性を高める。
本手法は実装が容易で,既存の模倣学習フレームワークと容易に統合できる。
実験により,本手法は雑音摂動下での様々な模倣学習タスクの成功率を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 1.3518297878940662
- License:
- Abstract: A fundamental challenge in imitation learning is the \emph{covariate shift} problem. Existing methods to mitigate covariate shift often require additional expert interactions, access to environment dynamics, or complex adversarial training, which may not be practical in real-world applications. In this paper, we propose a simple yet effective method (DeCIL) to mitigate covariate shift by incorporating a denoising mechanism that enhances the contraction properties of the state transition mapping. Our approach involves training two neural networks: a dynamics model ( f ) that predicts the next state from the current state, and a joint state-action denoising policy network ( d ) that refines this state prediction via denoising and outputs the corresponding action. We provide theoretical analysis showing that the denoising network acts as a local contraction mapping, reducing the error propagation of the state transition and improving stability. Our method is straightforward to implement and can be easily integrated with existing imitation learning frameworks without requiring additional expert data or complex modifications to the training procedure. Empirical results demonstrate that our approach effectively improves success rate of various imitation learning tasks under noise perturbation.
- Abstract(参考訳): 模倣学習における根本的な課題は、emph{covariate shift} 問題である。
共変量シフトを緩和する既存の方法は、しばしば専門的な相互作用、環境力学へのアクセス、あるいは現実の応用では実用的でない複雑な敵の訓練を必要とする。
本稿では、状態遷移写像の縮退特性を高めるデノナイジング機構を組み込むことにより、共変量シフトを緩和する簡易かつ効果的な方法(DeCIL)を提案する。
我々のアプローチでは、現在の状態から次の状態を予測するダイナミックスモデル(f)と、対応するアクションを識別し出力することでこの状態予測を洗練するジョイントステートアクション認知ポリシーネットワーク(d)の2つのニューラルネットワークをトレーニングする。
本稿では,デノナイジングネットワークが局所縮約写像として機能し,状態遷移の誤差伝播を低減し,安定性を向上することを示す理論的解析を行う。
提案手法は実装が容易で,既存の模倣学習フレームワークと容易に統合できる。
実験により,本手法は雑音摂動下での様々な模倣学習タスクの成功率を効果的に向上することを示した。
関連論文リスト
- PreAdaptFWI: Pretrained-Based Adaptive Residual Learning for Full-Waveform Inversion Without Dataset Dependency [8.719356558714246]
フルウェーブフォーム・インバージョン(Full-waveform Inversion、FWI)は、地震データを用いて地下媒体の物理パラメータを反転させる手法である。
異常な性質のため、FWIは局所的なミニマに閉じ込められやすい。
ニューラルネットワークとFWIを組み合わせることで、インバージョンプロセスの安定化が試みられている。
論文 参考訳(メタデータ) (2025-02-17T15:30:17Z) - Improving generalization of robot locomotion policies via Sharpness-Aware Reinforcement Learning [0.5399800035598186]
微分可能なシミュレータは、正確な勾配によるサンプル効率の改善を提供するが、接触豊富な環境では不安定である。
本稿では,勾配に基づく強化学習アルゴリズムにシャープネスを考慮した最適化を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-29T14:25:54Z) - Robust Training of Neural Networks at Arbitrary Precision and Sparsity [11.177990498697845]
量子化とスパーシフィケーションに固有の不連続な操作は、バックプロパゲーションに障害をもたらす。
これは、超低精度とスパースレジームでディープニューラルネットワークをトレーニングする場合、特に困難である。
我々は、新しい、頑健で普遍的な解、すなわちデノージングアフィン変換を提案する。
論文 参考訳(メタデータ) (2024-09-14T00:57:32Z) - Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - Seismic Data Interpolation via Denoising Diffusion Implicit Models with Coherence-corrected Resampling [7.755439545030289]
U-Netのようなディープラーニングモデルは、トレーニングとテストの欠落パターンが一致しない場合、しばしばパフォーマンスが低下する。
マルチモーダル拡散モデルに基づく新しいフレームワークを提案する。
推論フェーズでは,サンプリングステップの数を減らし,暗黙的拡散モデルを導入する。
露呈された痕跡と欠落した痕跡との一貫性と連続性を高めるために,我々は2つの戦略を提案する。
論文 参考訳(メタデータ) (2023-07-09T16:37:47Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Robust Imitation Learning from Noisy Demonstrations [81.67837507534001]
我々は,対称的損失を伴う分類リスクを最適化することにより,ロバストな模倣学習を実現することができることを示す。
擬似ラベルと協調学習を効果的に組み合わせた新しい模倣学習法を提案する。
連続制御ベンチマークによる実験結果から,本手法は最先端手法よりも頑健であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T10:41:37Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。