論文の概要: From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation
- arxiv url: http://arxiv.org/abs/2603.09415v1
- Date: Tue, 10 Mar 2026 09:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.204386
- Title: From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation
- Title(参考訳): フローからワンステップへ:最大最大分布推定による実時間多モード軌道法
- Authors: Ju Dong, Liding Zhang, Lei Zhang, Yu Fu, Kaixin Bai, Zoltan-Csaba Marton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang,
- Abstract要約: Indicit Likelihood Estimation (IMLE) を用いて条件付きフローマッチングの専門家を高速な単一ステップの学生に蒸留する枠組みを提案する。
双方向のチャンファー距離は、モードカバレッジと忠実度の両方を促進する設定レベルの目的を提供する。
統合認識エンコーダは、さらに多視点RGB、深度、点雲、プロプレセプションを幾何学的認識表現に統合する。
- 参考スコア(独自算出の注目度): 18.70033095161235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative policies based on diffusion and flow matching achieve strong performance in robotic manipulation by modeling multi-modal human demonstrations. However, their reliance on iterative Ordinary Differential Equation (ODE) integration introduces substantial latency, limiting high-frequency closed-loop control. Recent single-step acceleration methods alleviate this overhead but often exhibit distributional collapse, producing averaged trajectories that fail to execute coherent manipulation strategies. We propose a framework that distills a Conditional Flow Matching (CFM) expert into a fast single-step student via Implicit Maximum Likelihood Estimation (IMLE). A bi-directional Chamfer distance provides a set-level objective that promotes both mode coverage and fidelity, enabling preservation of the teacher multi-modal action distribution in a single forward pass. A unified perception encoder further integrates multi-view RGB, depth, point clouds, and proprioception into a geometry-aware representation. The resulting high-frequency control supports real-time receding-horizon re-planning and improved robustness under dynamic disturbances.
- Abstract(参考訳): 拡散と流れのマッチングに基づく生成ポリシーは、マルチモーダルな人間の実演をモデル化することによって、ロボット操作において強力な性能を達成する。
しかし、その反復正規微分方程式(ODE)統合への依存は、高周波閉ループ制御を制限し、かなりのレイテンシをもたらす。
最近の単段加速法は、このオーバーヘッドを緩和するが、しばしば分布崩壊を示し、コヒーレントな操作戦略の実行に失敗する平均軌道を生成する。
本稿では,条件付きフローマッチング(CFM)の専門家をImplicit Maximum Likelihood Estimation (IMLE)を介して,高速な単一ステップの学生に蒸留するフレームワークを提案する。
双方向のチャンファー距離は、モードカバレッジと忠実度の両方を促進する設定レベル目標を提供し、教師のマルチモーダルな行動分布を単一のフォワードパスで保存することを可能にする。
統合認識エンコーダは、さらに多視点RGB、深度、点雲、プロプレセプションを幾何学的認識表現に統合する。
結果として生じる高周波制御は、動的障害下でのリアルタイムの遅延-水平再計画とロバスト性の向上をサポートする。
関連論文リスト
- Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - Dual-End Consistency Model [41.982957134224904]
スロー反復サンプリングは拡散モデルとフローベース生成モデルの実践的展開において大きなボトルネックとなる。
本稿では,安定かつ効果的なトレーニングを実現するために,バイタルサブ軌道クラスタを選択するDual-End Consistency Model (DE-CM)を提案する。
提案手法は,ImageNet 256x256データセットの1ステップ生成において,最先端のFIDスコア1.70を達成し,既存のCMベースのワンステップアプローチよりも優れていた。
論文 参考訳(メタデータ) (2026-02-11T11:51:01Z) - STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction [16.465783114087223]
反復デノゲーションは、リアルタイム閉ループシステムにおける制御周波数を制限し、相当な推論遅延をもたらす。
高品質なウォームスタート動作を構築するための軽量時整合予測機構STEPを提案する。
2段階のSTEPは、RoboMimicベンチマークや実世界のタスクでBRIDGERやDDIMよりも平均21.6%、27.5%高い成功率を達成することができる。
論文 参考訳(メタデータ) (2026-02-09T03:50:40Z) - PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。
PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T17:57:37Z) - Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - Realism Control One-step Diffusion for Real-World Image Super-Resolution [21.13930153613271]
本稿では,リアルタイムISRのためのリアルタイム制御一段階拡散(RCOD)フレームワークを提案する。
RCODはノイズ予測フェーズにおいて、忠実現実主義のトレードオフを明示的に制御する。
本手法は,計算効率を維持しつつ,優れた忠実度と知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-12T10:32:04Z) - OM2P: Offline Multi-Agent Mean-Flow Policy [40.346958259814514]
我々は,OM2P(Offline Multi-Agent Mean-Flow Policy)を提案する。
OM2Pは、最大3.8倍のGPUメモリ使用量を削減し、トレーニング時間の最大10.8倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-08-08T12:38:56Z) - Taming Flow Matching with Unbalanced Optimal Transport into Fast Pansharpening [10.23957420290553]
本稿では,一段階の高品位パンシャーピングを実現するための最適輸送フローマッチングフレームワークを提案する。
OTFMフレームワークは、パンシャーピング制約の厳格な遵守を維持しつつ、シミュレーション不要なトレーニングとシングルステップ推論を可能にする。
論文 参考訳(メタデータ) (2025-03-19T08:10:49Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。