論文の概要: Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising
- arxiv url: http://arxiv.org/abs/2510.21991v1
- Date: Fri, 24 Oct 2025 19:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.929884
- Title: Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising
- Title(参考訳): 遺伝的Denoisingによるロボットマニピュレーションのための2段階拡散政策
- Authors: Mateo Clemente, Leo Brunswic, Rui Heng Yang, Xuan Zhao, Yasser Khalil, Haoyu Lei, Amir Rasouli, Yinchuan Li,
- Abstract要約: 拡散モデルは、専門家のデモンストレーションを模倣してロボット操作の最先端の結果を得た。
具体的AIタスクの特定の特徴に認知過程を合わせることで、拡散ポリシーが効果的に機能できることが示される。
そこで本研究では,個体群をベースとした遺伝的デノナイジング手法を提案し,性能と安定性を両立させる。
- 参考スコア(独自算出の注目度): 22.356276412952738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models, such as diffusion policy, have achieved state-of-the-art results in robotic manipulation by imitating expert demonstrations. While diffusion models were originally developed for vision tasks like image and video generation, many of their inference strategies have been directly transferred to control domains without adaptation. In this work, we show that by tailoring the denoising process to the specific characteristics of embodied AI tasks -- particularly structured, low-dimensional nature of action distributions -- diffusion policies can operate effectively with as few as 5 neural function evaluations (NFE). Building on this insight, we propose a population-based sampling strategy, genetic denoising, which enhances both performance and stability by selecting denoising trajectories with low out-of-distribution risk. Our method solves challenging tasks with only 2 NFE while improving or matching performance. We evaluate our approach across 14 robotic manipulation tasks from D4RL and Robomimic, spanning multiple action horizons and inference budgets. In over 2 million evaluations, our method consistently outperforms standard diffusion-based policies, achieving up to 20\% performance gains with significantly fewer inference steps.
- Abstract(参考訳): 拡散政策のような拡散モデルは、専門家のデモンストレーションを模倣してロボット操作の最先端の結果を得た。
拡散モデルはもともと画像やビデオ生成などの視覚タスクのために開発されたが、推論戦略の多くは適応せずに直接制御領域に転送されている。
本研究では,AIタスクの具体的特性,特に構造化された,低次元の動作分布の性質を認知的プロセスに合わせることで,拡散ポリシを5つのニューラルファンクション評価(NFE)で効果的に動作させることができることを示す。
そこで本研究では, 個体群別採集戦略である遺伝的採集法を提案し, 散逸リスクの低い採集軌道を選択することにより, 性能と安定性の両立を図った。
提案手法は,2 NFEしか持たない課題を改善・マッチングしながら解決する。
我々はD4RLとRoomimicの14のロボット操作タスクにまたがるアプローチを,複数のアクション水平線と推論予算にまたがって評価した。
200万以上の評価において,提案手法は標準拡散法よりも常に優れており,最大20倍の性能向上を達成でき,推論ステップも大幅に少ない。
関連論文リスト
- STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation [18.55356623615343]
オフ政治評価(OPE)は、行動ポリシーから収集されたオフラインデータを用いて、ターゲットポリシーのパフォーマンスを推定する。
既存のOPE法は高次元の長距離問題には有効ではない。
長軸OPEのデノナイズ拡散を利用したモデルベース生成フレームワークSTITCH-OPEを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:39:26Z) - Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps [13.28742762414913]
NCDPOは拡散政策を雑音条件決定政策として再構成する新しい枠組みである。
実験の結果,NCDPOはスクラッチからトレーニングを行う際に,PPOに匹敵するサンプル効率が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-15T16:33:44Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。
本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。
本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文 参考訳(メタデータ) (2023-10-11T08:31:26Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。