論文の概要: DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment
- arxiv url: http://arxiv.org/abs/2410.11584v1
- Date: Tue, 15 Oct 2024 13:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:14.644589
- Title: DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment
- Title(参考訳): DeformPAM: 参照に基づくアクションアライメントによる長軸変形可能なオブジェクト操作のためのデータ効率のよい学習
- Authors: Wendi Chen, Han Xue, Fangyuan Zhou, Yuan Fang, Cewu Lu,
- Abstract要約: 本稿では、優先学習と報酬誘導行動選択に基づくデータ効率の一般学習フレームワークを提案する。
DeformPAMは、長い水平タスクを複数のアクションプリミティブに分解し、人間の好みデータを使って暗黙の報酬モデルを訓練する。
実世界の長軸変形可能な3つのオブジェクト操作タスクの実験により,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 47.273405862634085
- License:
- Abstract: In recent years, imitation learning has made progress in the field of robotic manipulation. However, it still faces challenges when dealing with complex long-horizon deformable object tasks, such as high-dimensional state spaces, complex dynamics, and multimodal action distributions. Traditional imitation learning methods often require a large amount of data and encounter distributional shifts and accumulative errors in these tasks. To address these issues, we propose a data-efficient general learning framework (DeformPAM) based on preference learning and reward-guided action selection. DeformPAM decomposes long-horizon tasks into multiple action primitives, utilizes 3D point cloud inputs and diffusion models to model action distributions, and trains an implicit reward model using human preference data. During the inference phase, the reward model scores multiple candidate actions, selecting the optimal action for execution, thereby reducing the occurrence of anomalous actions and improving task completion quality. Experiments conducted on three challenging real-world long-horizon deformable object manipulation tasks demonstrate the effectiveness of this method. Results show that DeformPAM improves both task completion quality and efficiency compared to baseline methods even with limited data. Code and data will be available at https://deform-pam.robotflow.ai.
- Abstract(参考訳): 近年、模倣学習はロボット操作の分野で進歩している。
しかし、高次元状態空間、複素力学、マルチモーダル動作分布など、複雑な長水平変形可能なオブジェクトタスクを扱う場合、依然として課題に直面している。
従来の模倣学習手法は大量のデータを必要とし、これらのタスクにおいて分布シフトや累積誤差に遭遇することが多い。
これらの課題に対処するために、嗜好学習と報酬誘導行動選択に基づくデータ効率の高い汎用学習フレームワーク(DeformPAM)を提案する。
DeformPAMは、長距離タスクを複数のアクションプリミティブに分解し、3Dポイントクラウド入力と拡散モデルを使用してアクション分布をモデル化し、人間の好みデータを使って暗黙の報酬モデルを訓練する。
推論フェーズにおいて、報酬モデルは複数の候補動作をスコアし、実行のための最適な動作を選択し、異常な動作の発生を低減し、タスク完了品質を向上させる。
実世界の長軸変形可能な3つのオブジェクト操作タスクの実験により,本手法の有効性が示された。
その結果,DeformPAMは,限られたデータであっても,ベースライン手法と比較してタスク完了品質と効率を両立させることがわかった。
コードとデータはhttps://deform-pam.robotflow.ai.comで入手できる。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Exploring intra-task relations to improve meta-learning algorithms [1.223779595809275]
我々は,タスクの効果的なミニバッチによるトレーニング安定性向上のために,タスク関係の外部知識を活用することを目的としている。
ミニバッチでタスクの多様なセットを選択すると、完全な勾配がより良く見積もられるため、トレーニングにおけるノイズの低減につながる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-12-27T15:33:52Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - A Memory-Related Multi-Task Method Based on Task-Agnostic Exploration [26.17597857264231]
模倣学習とは対照的に、専門家データはなく、環境探索を通じて収集されたデータのみである。
新しいタスクを解くためのアクションシーケンスは、複数のトレーニングタスクの軌道セグメントの組み合わせである可能性があるため、テストタスクと解決戦略は、トレーニングデータに直接存在しない。
本稿では,メモリ関連マルチタスク手法(M3)を提案する。
論文 参考訳(メタデータ) (2022-09-09T03:02:49Z) - Efficient and Robust Training of Dense Object Nets for Multi-Object
Robot Manipulation [8.321536457963655]
我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。
本研究は,多目的データを用いた学習に重点を置いている。
実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
論文 参考訳(メタデータ) (2022-06-24T08:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。