論文の概要: From Imitation to Refinement -- Residual RL for Precise Visual Assembly
- arxiv url: http://arxiv.org/abs/2407.16677v1
- Date: Tue, 23 Jul 2024 17:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:16:18.588948
- Title: From Imitation to Refinement -- Residual RL for Precise Visual Assembly
- Title(参考訳): イミテーションからリファインメントへ - 精密ビジュアルアセンブリのための残留RL-
- Authors: Lars Ankile, Anthony Simeonov, Idan Shenfeld, Marcel Torne, Pulkit Agrawal,
- Abstract要約: 強化学習により、政策はタスク報酬の監督と探索を通じて局所的な修正行動を取得することができる。
本稿では、精密な操作タスクにおいて、BC訓練ポリシーを改善するためにRLファインチューニングを用いることについて検討する。
我々は,標準方針勾配法とスパース報酬法を用いて,凍ったBCトレーニング拡散モデル上での残留ポリシーのトレーニングを提案する。
- 参考スコア(独自算出の注目度): 19.9786629249219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavior cloning (BC) currently stands as a dominant paradigm for learning real-world visual manipulation. However, in tasks that require locally corrective behaviors like multi-part assembly, learning robust policies purely from human demonstrations remains challenging. Reinforcement learning (RL) can mitigate these limitations by allowing policies to acquire locally corrective behaviors through task reward supervision and exploration. This paper explores the use of RL fine-tuning to improve upon BC-trained policies in precise manipulation tasks. We analyze and overcome technical challenges associated with using RL to directly train policy networks that incorporate modern architectural components like diffusion models and action chunking. We propose training residual policies on top of frozen BC-trained diffusion models using standard policy gradient methods and sparse rewards, an approach we call ResiP (Residual for Precise manipulation). Our experimental results demonstrate that this residual learning framework can significantly improve success rates beyond the base BC-trained models in high-precision assembly tasks by learning corrective actions. We also show that by combining ResiP with teacher-student distillation and visual domain randomization, our method can enable learning real-world policies for robotic assembly directly from RGB images. Find videos and code at \url{https://residual-assembly.github.io}.
- Abstract(参考訳): 行動クローニング(BC)は、現在、現実世界の視覚的操作を学ぶための主要なパラダイムである。
しかし、マルチパートアセンブリのような局所的な修正行動を必要とするタスクでは、人間のデモから純粋に堅牢なポリシーを学ぶことは難しいままである。
強化学習(Reinforcement Learning, RL)は、タスク報酬の監督と探索を通じて、ポリシーが局所的な修正行動を取得することによって、これらの制限を緩和することができる。
本稿では、精密な操作タスクにおいて、BC訓練ポリシーを改善するためにRLファインチューニングを用いることについて検討する。
我々は、拡散モデルやアクションチャンキングといったモダンなアーキテクチャコンポーネントを組み込んだポリシーネットワークを直接トレーニングするためにRLを使用することに関連する技術的課題を分析し、克服する。
本稿では,標準方針勾配法とスパース報酬法(ResiP, Residual for Precise Operations)を用いて,凍結したBC訓練拡散モデル上での残留ポリシーのトレーニングを提案する。
実験結果から, この残差学習フレームワークは, 精度の高い組立作業において, 基礎となるBC訓練モデルを超えて, 精度の高い学習動作を学習することで, 成功率を大幅に向上させることができることが示された。
また,ResiPと教師学生の蒸留と視覚領域のランダム化を組み合わせることで,RGB画像から直接ロボット集合の現実的なポリシーを学習できることを示す。
ビデオとコードは \url{https://residual-assembly.github.io} で見つける。
関連論文リスト
- Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC)
トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。
DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Learning Model Predictive Control Parameters via Bayesian Optimization for Battery Fast Charging [0.0]
モデル予測制御(MPC)のチューニングパラメータは、特に制御器の予測と閉ループプラントの挙動に顕著な相違がある場合、重要な課題を示す。
本研究では,バッテリ高速充電の閉ループ性能向上を目的とした,未知のモデルパラメータとパラメータ化された制約バックオフ項の効率的な学習にベイズ最適化を適用した。
論文 参考訳(メタデータ) (2024-04-09T08:49:41Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning [7.462336024223669]
主な課題は、データに存在しないアクションに対する過大評価バイアスを克服することである。
このバイアスを減らすための簡単な方法は、行動的クローニング(BC)を通じてポリシー制約を導入することである。
私たちは、BCコンポーネントの影響を減らしながら、ポリシーをオフラインでトレーニングし続けることで、洗練されたポリシーを作成できることを実証します。
論文 参考訳(メタデータ) (2022-11-21T19:10:27Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - ConserWeightive Behavioral Cloning for Reliable Offline Reinforcement
Learning [27.322942155582687]
オフライン強化学習(RL)の目標は、静的なログ付きデータセットからほぼ最適なポリシを学ぶことで、高価なオンラインインタラクションをサイドステッピングすることにある。
行動クローン(BC)は、教師あり学習を通じてオフラインの軌跡を模倣することで、オフラインRLに対する簡単なソリューションを提供する。
オフラインRLにおける条件付きBCの性能を向上させるために,ConserWeightive Behavioral Cloning (CWBC)を提案する。
論文 参考訳(メタデータ) (2022-10-11T05:37:22Z) - Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions [20.531576904743282]
オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
論文 参考訳(メタデータ) (2021-12-23T00:07:28Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。