論文の概要: Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections
- arxiv url: http://arxiv.org/abs/2506.16685v1
- Date: Fri, 20 Jun 2025 01:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.399997
- Title: Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections
- Title(参考訳): 完全残留型DAgger:ヒト矯正によるリアルタイムコンタクトリッチマニピュレーションの改善
- Authors: Xiaomeng Xu, Yifan Hou, Zeyi Liu, Shuran Song,
- Abstract要約: CR-DAgger(Compliant Residual DAgger)を紹介する。
CR-DAgger は,1) コンプライアンス制御を活用したコンプライアンス・インターベンション・インタフェース,2) ロボットのポリシー実行を中断することなく,穏やかで正確なデルタ動作補正を実現すること,2) 力フィードバックと力制御を取り入れつつ,人間の修正から学習するコンプライアンス・レジデンシャル・ポリシーの定式化,の2つの新しい構成要素を含む。
本システムでは,最小限の補正データを用いた高精度なコンタクトリッチな操作タスクの性能向上と,2つの課題に対して基本方針成功率を50%以上向上させるとともに,再学習と微調整の両方に優れる。
- 参考スコア(独自算出の注目度): 30.509556877210755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address key challenges in Dataset Aggregation (DAgger) for real-world contact-rich manipulation: how to collect informative human correction data and how to effectively update policies with this new data. We introduce Compliant Residual DAgger (CR-DAgger), which contains two novel components: 1) a Compliant Intervention Interface that leverages compliance control, allowing humans to provide gentle, accurate delta action corrections without interrupting the ongoing robot policy execution; and 2) a Compliant Residual Policy formulation that learns from human corrections while incorporating force feedback and force control. Our system significantly enhances performance on precise contact-rich manipulation tasks using minimal correction data, improving base policy success rates by over 50\% on two challenging tasks (book flipping and belt assembly) while outperforming both retraining-from-scratch and finetuning approaches. Through extensive real-world experiments, we provide practical guidance for implementing effective DAgger in real-world robot learning tasks. Result videos are available at: https://compliant-residual-dagger.github.io/
- Abstract(参考訳): 我々は、実世界のコンタクトリッチな操作のためのデータセット集約(DAgger)における重要な課題に対処する。
2つの新しいコンポーネントを含む Compliant Residual DAgger (CR-DAgger) を紹介する。
1) コンプライアンス制御を活用したコンプライアンス・インターベンション・インタフェースにより、人間が進行中のロボット政策実行を中断することなく、穏やかで正確なデルタ行動修正を行うことができる。
2) 力のフィードバックと力の制御を取り入れつつ、人間の修正から学習する適合した残留政策の定式化。
本システムでは,最小限の補正データを用いた高精度なコンタクトリッチ操作タスクの性能向上と,2つの課題(ブックフリップとベルト組立)における基本方針成功率の50%以上向上を実現し,スクラッチとファインタニングの両手法より優れた性能向上を実現している。
本研究では,実世界のロボット学習タスクにおいて,効果的なDAggerを実現するための実践的ガイダンスを提供する。
結果のビデオは、https://compliant-residual-dagger.github.io/.com/で公開されている。
関連論文リスト
- COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections [45.420679219101245]
オンライン補正(DROC)の蒸留と検索について紹介する。
DROCは大規模言語モデル(LLM)ベースのシステムで、任意の形式の言語フィードバックに対応できる。
DROCは、知識ベースにおけるオンライン修正のシーケンスから、関連情報を効果的に蒸留できることを実証する。
論文 参考訳(メタデータ) (2023-11-17T18:00:20Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Policy Learning with Adaptively Collected Data [22.839095992238537]
適応的に収集されたデータで最適な政策を学ぶという課題に対処します。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案する。
合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2021-05-05T22:03:10Z) - Learning Compliance Adaptation in Contact-Rich Manipulation [81.40695846555955]
本稿では,コンタクトリッチタスクに必要な力プロファイルの予測モデルを学習するための新しいアプローチを提案する。
このアプローチは、双方向Gated Recurrent Units (Bi-GRU) に基づく異常検出と適応力/インピーダンス制御を組み合わせたものである。
論文 参考訳(メタデータ) (2020-05-01T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。