論文の概要: Online Imitation Learning for Manipulation via Decaying Relative Correction through Teleoperation
- arxiv url: http://arxiv.org/abs/2503.15368v1
- Date: Wed, 19 Mar 2025 16:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:21:54.692367
- Title: Online Imitation Learning for Manipulation via Decaying Relative Correction through Teleoperation
- Title(参考訳): 遠隔操作による相対補正の減少による操作のオンライン模倣学習
- Authors: Cheng Pan, Hung Hon Cheng, Josie Hughes,
- Abstract要約: 本稿では,専門家によって提供される空間オフセットベクトルに基づいて,DEC(Desaying Relative Correction)と呼ばれる補正手法を提案する。
以上の結果から, DRCは標準的な絶対補正法に比べて, 必要な専門家介入率を30%削減できることが示された。
- 参考スコア(独自算出の注目度): 2.7036595757881323
- License:
- Abstract: Teleoperated robotic manipulators enable the collection of demonstration data, which can be used to train control policies through imitation learning. However, such methods can require significant amounts of training data to develop robust policies or adapt them to new and unseen tasks. While expert feedback can significantly enhance policy performance, providing continuous feedback can be cognitively demanding and time-consuming for experts. To address this challenge, we propose to use a cable-driven teleoperation system which can provide spatial corrections with 6 degree of freedom to the trajectories generated by a policy model. Specifically, we propose a correction method termed Decaying Relative Correction (DRC) which is based upon the spatial offset vector provided by the expert and exists temporarily, and which reduces the intervention steps required by an expert. Our results demonstrate that DRC reduces the required expert intervention rate by 30\% compared to a standard absolute corrective method. Furthermore, we show that integrating DRC within an online imitation learning framework rapidly increases the success rate of manipulation tasks such as raspberry harvesting and cloth wiping.
- Abstract(参考訳): 遠隔操作型ロボットマニピュレータは、模倣学習による制御ポリシーのトレーニングに使用できるデモデータの収集を可能にする。
しかし、このような手法は、堅牢なポリシーを策定したり、新規で目に見えないタスクに適応するために、かなりの量のトレーニングデータを必要とする可能性がある。
専門家からのフィードバックは政策のパフォーマンスを大幅に向上させることができるが、継続的なフィードバックを提供することは、専門家にとって認知的に要求され、時間を要する可能性がある。
この課題に対処するために,政策モデルにより生成された軌道に対して,空間補正を6自由度で行えるケーブル駆動遠隔操作システムを提案する。
具体的には、専門家が提供した空間オフセットベクトルに基づいて、一時的に存在する補正手法として、専門家が必要とする介入手順を短縮する「減衰相対補正(DRC)」を提案する。
以上の結果から, DRCは標準的な絶対補正法に比べて, 必要な専門家介入率を30倍に削減できることが示された。
さらに、オンライン模倣学習フレームワークにDRCを統合することで、ラズベリー収穫や布拭きなどの操作タスクの成功率を急速に向上させることを示す。
関連論文リスト
- What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。
我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。
また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2025-01-28T14:12:32Z) - Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Tube-NeRF: Efficient Imitation Learning of Visuomotor Policies from MPC
using Tube-Guided Data Augmentation and NeRFs [42.220568722735095]
感性学習(IL)は資源集約型モデル予測制御器(MPC)から計算効率の高い感触者ポリシーを訓練できる
本稿では,ビジョンベースのポリシーを効率的に学習するデータ拡張(DA)戦略を提案する。
実演効率は80倍に向上し,現行のIL法に比べてトレーニング時間を50%削減した。
論文 参考訳(メタデータ) (2023-11-23T18:54:25Z) - Accelerating Self-Imitation Learning from Demonstrations via Policy
Constraints and Q-Ensemble [6.861783783234304]
本稿では,A-SILfDという実演法から学ぶことを提案する。
A-SILfDは専門家のデモンストレーションをエージェントの成功経験として扱い、政策改善を制約するために経験を使用する。
4つのMujoco連続制御タスクにおいて、A-SILfDはオンライントレーニングの15万ステップの後に、ベースラインメソッドを大幅に上回ることができる。
論文 参考訳(メタデータ) (2022-12-07T10:29:13Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Adversarial Imitation Learning with Trajectorial Augmentation and
Correction [61.924411952657756]
本稿では,拡張軌道の成功を保った新しい拡張手法を提案する。
我々は, 合成専門家を用いた模倣エージェントの訓練を行うために, 逆データ拡張模倣アーキテクチャを開発した。
実験により,我々のデータ拡張戦略は,敵対的模倣の精度と収束時間を向上できることが示された。
論文 参考訳(メタデータ) (2021-03-25T14:49:32Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。