論文の概要: HybridFlow: A Two-Step Generative Policy for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.13718v1
- Date: Sat, 14 Feb 2026 10:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.36103
- Title: HybridFlow: A Two-Step Generative Policy for Robotic Manipulation
- Title(参考訳): HybridFlow: ロボットマニピュレーションのための2段階のジェネレーティブポリシー
- Authors: Zhenchen Dong, Jinna Fu, Jiaming Wu, Shengyuan Yu, Fulin Chen, Yide Liu,
- Abstract要約: MeanFlowは、フローマッチングの一段階の変種として、画像生成に強い可能性を示している。
HybridFlowは、MeanFlowのワンステップ生成の迅速な利点を活用することで、推論速度と生成品質のバランスをとる。
我々は,ロボット操作ポリシーの現実的なインタラクション能力を高めるために,HybridFlowを実用的な低レイテンシ手法として想定する。
- 参考スコア(独自算出の注目度): 2.2200541495683996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Limited by inference latency, existing robot manipulation policies lack sufficient real-time interaction capability with the environment. Although faster generation methods such as flow matching are gradually replacing diffusion methods, researchers are pursuing even faster generation suitable for interactive robot control. MeanFlow, as a one-step variant of flow matching, has shown strong potential in image generation, but its precision in action generation does not meet the stringent requirements of robotic manipulation. We therefore propose \textbf{HybridFlow}, a \textbf{3-stage method} with \textbf{2-NFE}: Global Jump in MeanFlow mode, ReNoise for distribution alignment, and Local Refine in ReFlow mode. This method balances inference speed and generation quality by leveraging the rapid advantage of MeanFlow one-step generation while ensuring action precision with minimal generation steps. Through real-world experiments, HybridFlow outperforms the 16-step Diffusion Policy by \textbf{15--25\%} in success rate while reducing inference time from 152ms to 19ms (\textbf{8$\times$ speedup}, \textbf{$\sim$52Hz}); it also achieves 70.0\% success on unseen-color OOD grasping and 66.3\% on deformable object folding. We envision HybridFlow as a practical low-latency method to enhance real-world interaction capabilities of robotic manipulation policies.
- Abstract(参考訳): 推論レイテンシによって制限された既存のロボット操作ポリシーでは、環境との十分なリアルタイムインタラクション機能が欠如している。
フローマッチングなどの高速な生成手法は徐々に拡散法に取って代わりつつあるが、研究者は対話型ロボット制御に適した高速な生成方法を模索している。
MeanFlowは、フローマッチングの一段階の変種であり、画像生成に強い可能性を示しているが、その動作生成精度はロボット操作の厳密な要件を満たしていない。
そこで,本稿では,MeanFlowモードにおけるグローバルジャンプ,分散アライメントのためのReNoise,ReFlowモードにおけるローカルリファイン化などの方法として,‘textbf{HybridFlow}, \textbf{3-stage method} を提案する。
最小生成ステップで動作精度を確保しつつ、MeanFlowの一段階生成の迅速な優位性を生かし、推論速度と生成品質のバランスをとる。
実世界の実験を通じて、HybridFlowは152msから19ms(\textbf{8$\times$ speedup}, \textbf{$\sim$52Hz})まで推論時間を減らしながら、成功率で16段階拡散ポリシーを上回り、また、不透明なOODのグルーピングで70.0\%、変形可能なオブジェクトの折り畳みで66.3\%を達成している。
我々は,ロボット操作ポリシーの現実的なインタラクション能力を高めるために,HybridFlowを実用的な低レイテンシ手法として想定する。
関連論文リスト
- FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference [10.34801095627052]
フローマッチングモデルは、画像およびビデオ生成における最先端の忠実度を提供するが、固有のシーケンシャルなデノジングプロセスはそれらを遅くする。
我々は,フローマッチングモデルの生成を高速化するプラグイン・アンド・プレイ適応型推論フレームワークであるFastFlowを提案する。
実験では、高品質な出力を維持しながら2.6倍以上のスピードアップを示す。
論文 参考訳(メタデータ) (2026-02-11T18:21:11Z) - ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge [11.016302257907936]
VLA(Vision-Language-Action)モデルは、ロボットの知覚と制御の統一パラダイムとして登場した。
現在のVLAモデルは、自己回帰復号のメモリバウンド特性のため、エッジデバイス上でわずか3-5Hzで動作する。
本稿では,リソース制約のあるエッジプレート形式に適したシステムレベルの推論フレームワークであるActionFlowを紹介する。
論文 参考訳(メタデータ) (2025-12-23T11:29:03Z) - ARMFlow: AutoRegressive MeanFlow for Online 3D Human Reaction Generation [48.716675019745885]
3次元の人間の反応生成は、高速な動きの忠実さ、リアルタイム推論、オンラインシナリオの自己回帰適応性という3つの大きな課題に直面している。
動作と速度の時間依存性をモデル化する,MeanFlowベースの自動回帰フレームワークであるARMFlowを提案する。
我々のシングルステップオンライン生成は、部分的なシーケンス条件のみを使用しながら、オフラインの最先端性能に適合しながら、InterHumanとInterXの既存のメソッドを40%以上FIDで上回ります。
論文 参考訳(メタデータ) (2025-12-18T06:28:42Z) - Flow Straighter and Faster: Efficient One-Step Generative Modeling via MeanFlow on Rectified Trajectories [14.36205662558203]
Rectified MeanFlowは、単一のリフローステップのみを使用して、修正された軌道に沿った平均速度場をモデル化するフレームワークである。
64、256、および512の解像度でのImageNetの実験では、Re-MeanFlowは、サンプルの品質とトレーニング効率の両方で、一段階の蒸留法とRectified Flow法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-28T16:50:08Z) - OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows [59.052955667723985]
可変長および同時混合モード生成が可能な最初の非自己回帰型マルチモーダルモデルであるOneFlowを提案する。
テキストと画像生成の間の厳格な因果順序を強制する自己回帰モデルとは異なり、OneFlowは個別のテキストトークンに対する挿入ベースのEdit Flowと、画像潜伏者のためのFlow Matchingを組み合わせる。
論文 参考訳(メタデータ) (2025-10-03T20:40:30Z) - MeanFlowSE: one-step generative speech enhancement via conditional mean flow [13.437825847370442]
MeanFlowSEは、軌道に沿った有限区間の平均速度を学習する条件付き生成モデルである。
VoiceBank-DEMANDでは、シングルステップモデルは多ステップベースラインよりも計算コストが大幅に低い強い知性、忠実性、知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-18T11:24:47Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。