論文の概要: DM1: MeanFlow with Dispersive Regularization for 1-Step Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2510.07865v1
- Date: Thu, 09 Oct 2025 07:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.922931
- Title: DM1: MeanFlow with Dispersive Regularization for 1-Step Robotic Manipulation
- Title(参考訳): DM1:1ステップロボットマニピュレーションのための分散正規化付き平均流
- Authors: Guowei Zou, Haitao Wang, Hejun Wu, Yukun Qian, Yuhang Wang, Weibing Li,
- Abstract要約: フローベースの生成モデルは、アクションの分布を学習するための有望なソリューションとして現れてきた。
既存のフローベースのポリシーは、表現の崩壊、類似した視覚的表現を区別できないこと、そして正確な操作タスクの失敗に悩まされる。
本稿では,分散正規化をMeanFlowに統合した新しいフローマッチングフレームワークDM1を提案する。
- 参考スコア(独自算出の注目度): 23.382067451764396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to learn multi-modal action distributions is indispensable for robotic manipulation policies to perform precise and robust control. Flow-based generative models have recently emerged as a promising solution to learning distributions of actions, offering one-step action generation and thus achieving much higher sampling efficiency compared to diffusion-based methods. However, existing flow-based policies suffer from representation collapse, the inability to distinguish similar visual representations, leading to failures in precise manipulation tasks. We propose DM1 (MeanFlow with Dispersive Regularization for One-Step Robotic Manipulation), a novel flow matching framework that integrates dispersive regularization into MeanFlow to prevent collapse while maintaining one-step efficiency. DM1 employs multiple dispersive regularization variants across different intermediate embedding layers, encouraging diverse representations across training batches without introducing additional network modules or specialized training procedures. Experiments on RoboMimic benchmarks show that DM1 achieves 20-40 times faster inference (0.07s vs. 2-3.5s) and improves success rates by 10-20 percentage points, with the Lift task reaching 99% success over 85% of the baseline. Real-robot deployment on a Franka Panda further validates that DM1 transfers effectively from simulation to the physical world. To the best of our knowledge, this is the first work to leverage representation regularization to enable flow-based policies to achieve strong performance in robotic manipulation, establishing a simple yet powerful approach for efficient and robust manipulation.
- Abstract(参考訳): ロボット操作ポリシーが正確かつ堅牢な制御を行うためには,マルチモーダルな動作分布を学習する能力が不可欠である。
フローベースの生成モデルは、最近、アクションの分布を学習するための有望なソリューションとして現れ、ワンステップのアクション生成を提供し、拡散ベースの手法に比べてサンプリング効率がはるかに高い。
しかし、既存のフローベースのポリシーは、表現の崩壊、類似した視覚的表現を区別できないこと、そして正確な操作タスクの失敗に悩まされている。
本稿では,分散正規化をMeanFlowに統合し,一方のステップ効率を維持しながら崩壊を防止する新しいフローマッチングフレームワークであるDM1(MeanFlow with Dispersive Regularization for One-Step Robotic Manipulation)を提案する。
DM1は、異なる中間埋め込み層にまたがる複数の分散正規化のバリエーションを採用しており、ネットワークモジュールの追加や特別なトレーニング手順を導入することなく、バッチをトレーニングする多様な表現を奨励している。
RoboMimicベンチマークの実験では、DM1は20~40倍高速な推論(0.07s vs. 2-3.5s)を達成し、成功率を10~20ポイント改善し、Liftタスクはベースラインの85%よりも99%成功している。
フランカ・パンダにおける実ロボットの展開は、DM1がシミュレーションから物理世界への効果的移行を検証する。
我々の知る限りでは、これは表現正規化を活用して、フローベースのポリシーによってロボット操作の強力なパフォーマンスを実現し、効率的で堅牢な操作のためのシンプルで強力なアプローチを確立するための最初の試みである。
関連論文リスト
- Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - VFP: Variational Flow-Matching Policy for Multi-Modal Robot Manipulation [3.986404588605909]
可変フローマッチングポリシー(VFP)は、タスクレベルとトラジェクトリレベルの両方のマルチモーダリティをキャプチャするフローマッチングポリシーである。
VFPは、標準的なフローベースベースラインよりもタスク成功率を49%向上させる。
論文 参考訳(メタデータ) (2025-08-03T07:23:02Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - EUCLID: Towards Efficient Unsupervised Reinforcement Learning with
Multi-choice Dynamics Model [46.99510778097286]
教師なし強化学習(URL)は,タスクに依存しない環境で有用な行動を学ぶための,有望なパラダイムである。
本研究では,事前学習フェーズにおける動的モデルと教師なし探索ポリシーを協調的に事前学習するための,新しいモデル融合パラダイムを提案する。
本研究では,EUCLIDが高サンプリング効率で最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-10-02T12:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。