論文の概要: Streaming Flow Policy: Simplifying diffusion$/$flow-matching policies by treating action trajectories as flow trajectories
- arxiv url: http://arxiv.org/abs/2505.21851v1
- Date: Wed, 28 May 2025 00:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.343399
- Title: Streaming Flow Policy: Simplifying diffusion$/$flow-matching policies by treating action trajectories as flow trajectories
- Title(参考訳): ストリームフローポリシー:アクショントラジェクトリをフロートラジェクトリとして扱うことで拡散$/$フローマッチングポリシを簡略化する
- Authors: Sunshine Jiang, Xiaolin Fang, Nicholas Roy, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Siddharth Ancha,
- Abstract要約: 動作軌跡をフロー軌跡として扱うことで拡散$/$flowポリシーを簡素化する。
我々のアルゴリズムは、最後のアクションの周囲の狭いガウシアンからサンプリングする。
フローマッチングによって学習された速度場を漸進的に統合し、単一の軌道を構成する一連のアクションを生成する。
- 参考スコア(独自算出の注目度): 40.67946168216781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion$/$flow-matching policies have enabled imitation learning of complex, multi-modal action trajectories. However, they are computationally expensive because they sample a trajectory of trajectories: a diffusion$/$flow trajectory of action trajectories. They discard intermediate action trajectories, and must wait for the sampling process to complete before any actions can be executed on the robot. We simplify diffusion$/$flow policies by treating action trajectories as flow trajectories. Instead of starting from pure noise, our algorithm samples from a narrow Gaussian around the last action. Then, it incrementally integrates a velocity field learned via flow matching to produce a sequence of actions that constitute a single trajectory. This enables actions to be streamed to the robot on-the-fly during the flow sampling process, and is well-suited for receding horizon policy execution. Despite streaming, our method retains the ability to model multi-modal behavior. We train flows that stabilize around demonstration trajectories to reduce distribution shift and improve imitation learning performance. Streaming flow policy outperforms prior methods while enabling faster policy execution and tighter sensorimotor loops for learning-based robot control. Project website: https://streaming-flow-policy.github.io/
- Abstract(参考訳): 拡散$/$flow-matchingポリシーの最近の進歩は、複雑なマルチモーダルな行動軌跡の模倣学習を可能にした。
しかし、それらは運動軌跡の軌跡(拡散$/$flow軌跡)をサンプリングするため、計算的に高価である。
彼らは中間動作軌跡を破棄し、サンプリングプロセスが完了するまでロボット上で何らかの動作を実行するのを待たなければならない。
動作軌跡をフロー軌跡として扱うことで拡散$/$flowポリシーを簡素化する。
純粋なノイズから始める代わりに、我々のアルゴリズムは最後のアクションの周囲の狭いガウスからサンプルをサンプリングする。
そして、フローマッチングによって学習された速度場を漸進的に統合し、単一の軌道を構成する一連のアクションを生成する。
これにより、フローサンプリングプロセス中にアクションをロボットにオンザフライでストリーミングすることができ、水平方針実行の後退に適している。
ストリーミングにもかかわらず,本手法はマルチモーダル動作をモデル化する能力を維持している。
実演軌道の周囲を安定させる流れを訓練し,分布シフトを低減し,模倣学習性能を向上させる。
ストリーミングフローポリシーは、より高速なポリシー実行と学習に基づくロボット制御のためのより緊密な感覚運動回路を実現するとともに、従来の手法よりも優れる。
プロジェクトウェブサイト: https://streaming-flow-policy.github.io/
関連論文リスト
- ActionSink: Toward Precise Robot Manipulation with Dynamic Integration of Action Flow [93.00917887667234]
本稿では,アクション推定のための新しいロボット操作フレームワークであるActionSinkを紹介する。
その名前が示すように、ActionSinkは、アクションフローと呼ばれるビデオからのアクション起因の光学フローとして、ロボットのアクションを再構成する。
我々のフレームワークは,LIBEROベンチマークのSOTAよりも7.9%向上し,長軸視覚課題LIBERO-Longの精度は8%近く向上した。
論文 参考訳(メタデータ) (2025-08-05T08:46:17Z) - GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving [16.620086368657834]
GoalFlowは高品質なマルチモーダル軌道を生成するためのエンドツーエンドの自動運転手法である。
生成過程を制約し、高品質でマルチモーダルな軌道を生成する。
GoalFlowは最先端のパフォーマンスを実現し、自律運転のための堅牢なマルチモーダル軌道を提供する。
論文 参考訳(メタデータ) (2025-03-07T18:52:08Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本稿では,ロボット操作支援のためのフレームワークを提案する。
第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。
我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - Streaming Diffusion Policy: Fast Policy Synthesis with Variable Noise Diffusion Models [24.34842113104745]
拡散モデルはロボット模倣学習に急速に採用され、複雑なタスクを自律的に実行できるようになった。
近年の研究では、拡散過程の蒸留が政策合成の加速にどのように役立つかが研究されている。
本稿では,SDP(Streaming Diffusion Policy)を提案する。
論文 参考訳(メタデータ) (2024-06-07T10:13:44Z) - PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator [73.80050807279461]
Piecewise Rectified Flow (PeRFlow) は拡散モデルの高速化のためのフローベース手法である。
PeRFlowは数ステップの世代で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-13T07:10:53Z) - Optimal Flow Matching: Learning Straight Trajectories in Just One Step [89.37027530300617]
我々は,新しいtextbf Optimal Flow Matching (OFM) アプローチを開発し,理論的に正当化する。
これは2次輸送のための直列のOT変位をFMの1ステップで回復することを可能にする。
提案手法の主な考え方は,凸関数によってパラメータ化されるFMのベクトル場の利用である。
論文 参考訳(メタデータ) (2024-03-19T19:44:54Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Learning Control by Iterative Inversion [21.127717602247454]
本稿では,入力-出力対を持たない逆関数を学習するアルゴリズムを提案する。
反復的逆転は、関数のかなり厳密な条件下で、学習を正しく行うことができることを証明している。
報酬に基づく手法と比較して,多様な動作を模倣する性能が向上したことを報告した。
論文 参考訳(メタデータ) (2022-11-03T11:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。