論文の概要: RoDiF: Robust Direct Fine-Tuning of Diffusion Policies with Corrupted Human Feedback
- arxiv url: http://arxiv.org/abs/2602.00886v1
- Date: Sat, 31 Jan 2026 20:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.451612
- Title: RoDiF: Robust Direct Fine-Tuning of Diffusion Policies with Corrupted Human Feedback
- Title(参考訳): RoDiF: 破損した人間のフィードバックによる拡散反応のロバスト直接調整
- Authors: Amitesh Vatsa, Zhixian Xie, Wanxin Jin,
- Abstract要約: 拡散縮退鎖と環境力学を協調的に統合する統一マルコフ決定過程(MDP)の定式化を導入する。
本稿では,腐敗した人間の嗜好に明示的に対処するRoDiF(Robust Direct Fine-Tuning)を提案する。
- 参考スコア(独自算出の注目度): 4.908765539565052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies are a powerful paradigm for robotic control, but fine-tuning them with human preferences is fundamentally challenged by the multi-step structure of the denoising process. To overcome this, we introduce a Unified Markov Decision Process (MDP) formulation that coherently integrates the diffusion denoising chain with environmental dynamics, enabling reward-free Direct Preference Optimization (DPO) for diffusion policies. Building on this formulation, we propose RoDiF (Robust Direct Fine-Tuning), a method that explicitly addresses corrupted human preferences. RoDiF reinterprets the DPO objective through a geometric hypothesis-cutting perspective and employs a conservative cutting strategy to achieve robustness without assuming any specific noise distribution. Extensive experiments on long-horizon manipulation tasks show that RoDiF consistently outperforms state-of-the-art baselines, effectively steering pretrained diffusion policies of diverse architectures to human-preferred modes, while maintaining strong performance even under 30% corrupted preference labels.
- Abstract(参考訳): 拡散ポリシーはロボット制御の強力なパラダイムであるが、人間の好みでそれらを微調整することは、認知過程の多段階構造によって根本的な課題である。
これを解決するために,拡散デノナイジングチェーンと環境力学を協調的に統合する統一マルコフ決定プロセス(MDP)を導入し,拡散ポリシーに対する報酬なし直接選好最適化(DPO)を実現する。
この定式化に基づいて,腐敗した人間の嗜好に明示的に対処する手法であるRoDiF(Robust Direct Fine-Tuning)を提案する。
RoDiFは幾何学的仮説カットの観点からDPOの目的を再解釈し、特定の雑音分布を仮定することなく頑健性を達成するために保守的なカット戦略を用いる。
長期の操作タスクに関する大規模な実験により、RoDiFは最先端のベースラインを一貫して上回り、様々なアーキテクチャの事前訓練された拡散ポリシーを人間の優先モードに効果的に操りながら、30%の破損した選好ラベルでも強い性能を維持した。
関連論文リスト
- The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving [57.652356955571065]
最先端の大規模言語モデル(LLM)パイプラインは、ブートストラップの推論ループに依存している。
我々は、この設計選択が、推論経路上のモデルの分布の崩壊にどのように敏感であるかを分析する。
本稿では,分散創造推論(DCR)について紹介する。これは,解トレースの確率測定を通じて,トレーニングを勾配流としてキャストする,統一的な変分目的である。
論文 参考訳(メタデータ) (2026-01-02T17:10:31Z) - Dichotomous Diffusion Policy Optimization [46.51375996317989]
DIPOLEは、安定かつ制御可能な拡散ポリシー最適化のために設計された新しいRLアルゴリズムである。
また、DIPOLEを使用して、エンドツーエンドの自動運転のための大規模なビジョン言語アクションモデルをトレーニングしています。
論文 参考訳(メタデータ) (2025-12-31T16:56:56Z) - Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps [13.28742762414913]
NCDPOは拡散政策を雑音条件決定政策として再構成する新しい枠組みである。
実験の結果,NCDPOはスクラッチからトレーニングを行う際に,PPOに匹敵するサンプル効率が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-15T16:33:44Z) - Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。