論文の概要: Preference Aligned Visuomotor Diffusion Policies for Deformable Object Manipulation
- arxiv url: http://arxiv.org/abs/2602.09583v1
- Date: Tue, 10 Feb 2026 09:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.317452
- Title: Preference Aligned Visuomotor Diffusion Policies for Deformable Object Manipulation
- Title(参考訳): 変形性物体マニピュレーションのための選好適応型振動子拡散法
- Authors: Marco Moletta, Michael C. Welle, Danica Kragic,
- Abstract要約: 人間は自然に、操作タスクの実施方法の好みを発達させます。
RKOは、RPOとKTOという2つの新しいフレームワークの利点を組み合わせた、新しい選好アライメント手法である。
特にRKOは,標準拡散政策の微調整よりも優れた性能とサンプル効率が得られることを示す。
- 参考スコア(独自算出の注目度): 13.739688454304863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans naturally develop preferences for how manipulation tasks should be performed, which are often subtle, personal, and difficult to articulate. Although it is important for robots to account for these preferences to increase personalization and user satisfaction, they remain largely underexplored in robotic manipulation, particularly in the context of deformable objects like garments and fabrics. In this work, we study how to adapt pretrained visuomotor diffusion policies to reflect preferred behaviors using limited demonstrations. We introduce RKO, a novel preference-alignment method that combines the benefits of two recent frameworks: RPO and KTO. We evaluate RKO against common preference learning frameworks, including these two, as well as a baseline vanilla diffusion policy, on real-world cloth-folding tasks spanning multiple garments and preference settings. We show that preference-aligned policies (particularly RKO) achieve superior performance and sample efficiency compared to standard diffusion policy fine-tuning. These results highlight the importance and feasibility of structured preference learning for scaling personalized robot behavior in complex deformable object manipulation tasks.
- Abstract(参考訳): 人間は自然に、操作タスクの実施方法の好みを発達させます。
ロボットはこれらの好みを考慮し、パーソナライズとユーザ満足度を高めることが重要であるが、ロボット操作、特に衣服や布などの変形可能な物体の文脈において、主に過小評価されている。
本研究では,限定的な実演を用いた優先行動の反映のために,事前学習したビズモータ拡散ポリシーを適応させる方法について検討する。
RKOは、RPOとKTOという2つの新しいフレームワークの利点を組み合わせた、新しい選好アライメント手法である。
これらの2つを含む共通の嗜好学習フレームワークと,複数の衣服や嗜好設定にまたがる実世界の布の折り畳み作業に基づいて,ベースラインのバニラ拡散ポリシーを評価した。
特にRKOは,標準拡散政策の微調整よりも優れた性能とサンプル効率が得られることを示す。
これらの結果は、複雑な変形可能なオブジェクト操作タスクにおけるパーソナライズされたロボット動作のスケーリングにおける構造化された選好学習の重要性と実現可能性を強調した。
関連論文リスト
- ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation [46.06124092071133]
ロボット操作のための新しい動き指向キーポイント(CoMOK)の定式化を提案する。
私たちの定式化は、エンドツーエンドでトレーニング可能なニューラルポリシーのアクション表現として使用されます。
論文 参考訳(メタデータ) (2025-09-25T07:29:07Z) - On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。
OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-20T02:23:09Z) - FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment [73.14105098897696]
本研究では,人間の嗜好フィードバックをはるかに少なくして視覚的報酬を学習するための表現適応型選好学習(RAPL)を提案する。
RAPLは、エンドユーザの視覚表現に合わせて微調整された事前学習された視覚エンコーダに焦点を合わせ、特徴マッチングによって密集した視覚報酬を構築する。
RAPLは人間の嗜好に沿った報酬を学習し、より効率的に嗜好データを使用し、ロボットの具体化を一般化できることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:04:02Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。