論文の概要: Set-Supervised Diffusion Policy: Learning Action-Chunking Diffusion through Corrections
- arxiv url: http://arxiv.org/abs/2606.01865v1
- Date: Mon, 01 Jun 2026 08:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.606551
- Title: Set-Supervised Diffusion Policy: Learning Action-Chunking Diffusion through Corrections
- Title(参考訳): セット・スーパービジョン拡散政策:補正によるアクション・チャンキング拡散の学習
- Authors: Zhaoting Li, Gang Chen, Javier Alonso-Mora, Cosimo Della Santina, Jens Kober,
- Abstract要約: 拡散ポリシーは、ロボットの望ましくない行動と人間の教師の矯正行動の形でペア化された監督を提供する。
提案するSDP(Set-Supervised Diffusion Policy)は,コントラッシブなアクションチャンクデータを用いて,人間の修正から拡散ポリシーを訓練する新しい学習フレームワークである。
SDPは、特にノイズの多いデータに対するロバスト性において、ポリシーパフォーマンスを継続的に改善する。
- 参考スコア(独自算出の注目度): 25.961145214027255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies have recently emerged as a powerful framework for robotic manipulation. However, like other behavior cloning methods, they remain vulnerable to distributional shift, often requiring human-in-the-loop interventions to correct failures during deployment. These interactions naturally provide paired supervision in the form of the robot's undesired actions and the human teacher's corrective actions. Yet existing data aggregation pipelines and standard behavior cloning losses largely ignore this negative signal from undesired actions, leading to overfitting to teacher's actions and an increasing reliance on costly expert data. To address this limitation, we propose Set-Supervised Diffusion Policy (SDP), a novel learning framework that utilizes contrastive action-chunk data to train diffusion policies from human corrections. From paired positive and negative action-chunks, SDP constructs a set of desired action-chunks and designs a training pipeline that encourages the diffusion policy to align with the set. Through extensive experiments across multiple robotic manipulation tasks, we demonstrate that SDP consistently improves policy performance, with particularly strong gains in robustness to noisy data. Moreover, SDP induces high-quality aggregated datasets, enabling more efficient and reliable policy learning from human-in-the-loop corrections. Our code is available at https://set-supervised-diffusion-policy.github.io/.
- Abstract(参考訳): 拡散政策はロボット操作のための強力なフレームワークとして最近登場した。
しかし、他のビヘイビアクローン方法と同様に、それらは分散シフトに弱いままであり、デプロイ中の障害を修正するために、しばしばヒューマン・イン・ザ・ループの介入を必要とする。
これらの相互作用は、ロボットの望ましくない行動と人間の教師の矯正行動の形でペア化された監督を提供する。
しかし、既存のデータ集約パイプラインと標準的な行動クローニング損失は、望ましくない行動からのこの負のシグナルを無視し、教師の行動に過度に適合し、コストのかかる専門家データへの依存が増大する。
この制限に対処するために,コントラッシブ・アクション・チャンクデータを用いて人間の修正から拡散ポリシーを訓練する新しい学習フレームワーク,SDP(Set-Supervised Diffusion Policy)を提案する。
対の正と負のアクションチャンクから、SDPは所望のアクションチャンクのセットを構築し、拡散ポリシーをセットと整合させるトレーニングパイプラインを設計する。
複数のロボット操作タスクにわたる広範な実験を通じて、SDPは、特にノイズの多いデータに対するロバスト性において、ポリシー性能を一貫して改善することを示した。
さらに、SDPは高品質な集約データセットを誘導し、より効率的で信頼性の高いポリシー学習を可能にする。
私たちのコードはhttps://set-supervised-diffusion-policy.github.io/で利用可能です。
関連論文リスト
- Value-Guidance MeanFlow for Offline Multi-Agent Reinforcement Learning [42.476656442284835]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから最適なジョイントポリシーを学ぶことを目的としている。
本稿では,シンプルなフローベースのポリシー学習フレームワークであるValue Guidance Multi-agent MeanFlow Policy (VGM$2$P)を提案する。
VGM$2$Pは、グローバルなアドバンテージ値を使用してエージェントの協調をガイドし、最適なポリシー学習を条件付き行動クローンとして扱う。
論文 参考訳(メタデータ) (2026-04-09T12:31:43Z) - REFINE-DP: Diffusion Policy Fine-tuning for Humanoid Loco-manipulation via Reinforcement Learning [23.094280494500214]
本稿では,DP高レベルプランナとRLに基づく低レベルロコ操作制御を協調的に最適化する階層型フレームワークであるREFINE-DPを提案する。
REFINE-DPは、事前訓練されたデータに見られない配布外ケースであっても、シミュレーションで90%以上の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-14T02:21:19Z) - PPGuide: Steering Diffusion Policies with Performance Predictive Guidance [28.698103923760172]
PPGuideは、事前訓練された拡散ポリシーを、推論時に障害モードから切り離す。
注意ベースのマルチインスタンス学習を使用して、ポリシーのロールアウトからどの観察-アクションチャンクが成功か失敗かを自動的に見積もる。
提案したPPGuideを,RobomimicベンチマークとMimicGenベンチマークから,さまざまなタスクセットで検証した。
論文 参考訳(メタデータ) (2026-03-11T17:10:16Z) - RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。