論文の概要: How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference
- arxiv url: http://arxiv.org/abs/2603.03280v1
- Date: Tue, 03 Mar 2026 18:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.945053
- Title: How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference
- Title(参考訳): ナイフのピアス:人間の好みによる細粒度マニピュレーションの調整
- Authors: Toru Lin, Shuying Deng, Zhao-Heng Yin, Pieter Abbeel, Jitendra Malik,
- Abstract要約: ナイフを用いた剥離を例として,本質的な操作作業のための学習フレームワークを提案する。
本システムは,キュウリ,リンゴ,ジャガイモなどの難産品の平均成功率を90%以上達成する。
注目すべきは、単一の生産カテゴリで訓練されたポリシーは、カテゴリー内のインスタンスが見えないように、強いゼロショットの一般化を示すことである。
- 参考スコア(独自算出の注目度): 73.16380468921543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many essential manipulation tasks - such as food preparation, surgery, and craftsmanship - remain intractable for autonomous robots. These tasks are characterized not only by contact-rich, force-sensitive dynamics, but also by their "implicit" success criteria: unlike pick-and-place, task quality in these domains is continuous and subjective (e.g. how well a potato is peeled), making quantitative evaluation and reward engineering difficult. We present a learning framework for such tasks, using peeling with a knife as a representative example. Our approach follows a two-stage pipeline: first, we learn a robust initial policy via force-aware data collection and imitation learning, enabling generalization across object variations; second, we refine the policy through preference-based finetuning using a learned reward model that combines quantitative task metrics with qualitative human feedback, aligning policy behavior with human notions of task quality. Using only 50-200 peeling trajectories, our system achieves over 90% average success rates on challenging produce including cucumbers, apples, and potatoes, with performance improving by up to 40% through preference-based finetuning. Remarkably, policies trained on a single produce category exhibit strong zero-shot generalization to unseen in-category instances and to out-of-distribution produce from different categories while maintaining over 90% success rates.
- Abstract(参考訳): 食品準備、手術、工芸など、多くの重要な操作タスクは、自律ロボットにとって魅力的なままである。
これらのタスクは、接触に富む力に敏感な力学だけでなく、その「単純」成功基準によっても特徴づけられる: ピック・アンド・プレイスとは異なり、これらの領域におけるタスクの質は連続的で主観的(例えばジャガイモの皮の剥き取り具合)であり、定量的評価と報酬エンジニアリングが困難である。
本稿では,ナイフを用いた皮剥きを代表例として,そのようなタスクの学習フレームワークを提案する。
まず、力覚データ収集と模倣学習を通じて堅牢な初期方針を学習し、対象のバリエーションをまたいだ一般化を可能にし、第2に、定量的なタスクメトリクスと質的なヒューマンフィードバックを組み合わせた学習報酬モデルを用いて、嗜好に基づく微調整によりポリシーを洗練し、政策行動とタスク品質の概念を整合させる。
キュウリ,りんご,ジャガイモなどの挑戦的生産において,50~200個の剥離軌道のみを用いて平均90%以上の成功率を達成し,嗜好に基づく微調整により性能を最大40%向上させることができた。
特筆すべきは、単一の生産カテゴリーで訓練された政策は、カテゴリー内のインスタンスを目にしないよう強力なゼロショットの一般化を示し、90%以上の成功率を維持しながら、異なるカテゴリから生産されるアウト・オブ・ディストリビューションを示すことである。
関連論文リスト
- OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization [50.11607985532808]
異種タスクとサンプルのバランスをとるRL法であるHARPO(Heterogeneity-Aware Relative Policy Optimization)を紹介する。
HARPOを用いて,社会行動処理の基礎モデルであるOmnisapiens-7B 2.0を開発した。
既存の行動基盤モデルとは対照的に、Omnisapiens-7B 2.0は行動タスク間で最高のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-11T08:35:59Z) - Robust Finetuning of Vision-Language-Action Robot Policies via Parameter Merging [53.41119829581115]
大規模で多様なデータセットに基づいて訓練された汎用ロボットポリシーは、一般化する能力を実証している。
トレーニングデータに含まれていない新しいタスクにはまだ不足しています。
本研究では,ファインタニング時の一般政策の一般化能力を保全する手法を開発した。
論文 参考訳(メタデータ) (2025-12-09T08:02:11Z) - Using Temperature Sampling to Effectively Train Robot Learning Policies on Imbalanced Datasets [3.342232437547785]
ロボットタスクの多くのデータセットは、それらが表す物理的なロボット動作に関して、実質的に不均衡である。
この不均衡を緩和する政策訓練のための簡単なサンプリング戦略を提案する。
その結果,従来の最先端手法と比較して,低リソースタスクの大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-10-22T08:48:55Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。
アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文 参考訳(メタデータ) (2024-06-17T17:00:41Z) - Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - muNet: Evolving Pretrained Deep Neural Networks into Scalable
Auto-tuning Multitask Systems [4.675744559395732]
今日の機械学習のほとんどの用途は、特定のタスクのスクラッチからモデルをトレーニングすることや、関連するタスクで事前訓練されたモデルから始めて、下流タスクで微調整することである。
本稿では、事前訓練されたディープニューラルネットワークの層をビルディングブロックとして利用し、任意のタスクを共同で解決できるMLシステムを構築する方法を提案する。
得られたシステムはクロスタスクの知識伝達を利用でき、破滅的な忘れ、勾配の干渉、負の伝達といったマルチタスクアプローチの共通の欠点に免疫を持つ。
論文 参考訳(メタデータ) (2022-05-22T21:54:33Z) - Diversity-based Trajectory and Goal Selection with Hindsight Experience
Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。
提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2021-08-17T21:34:24Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。