論文の概要: CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2601.23087v2
- Date: Tue, 10 Feb 2026 10:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.040284
- Title: CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation
- Title(参考訳): CoLA-Flow Policy:ロボットマニピュレーションのための連続潜時動作フローマッチングによる一時的コヒーレント模倣学習
- Authors: Wu Songwei, Jiang Zhiduo, Xie Guanghu, Sun Wandong, Liu Hong, Liu Yang,
- Abstract要約: LG-Flow Policyは、連続的な潜在アクション空間でフローマッチングを実行する軌道レベルの模倣学習フレームワークである。
動作シーケンスを時間的に規則化された潜在軌道に符号化し、明示的な潜在空間の流れを学習することにより、提案手法は低レベル制御ノイズからグローバルな運動構造を分離する。
- 参考スコア(独自算出の注目度): 4.726851899243877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning long-horizon robotic manipulation requires jointly achieving expressive behavior modeling, real-time inference, and stable execution, which remains challenging for existing generative policies. Diffusion-based approaches provide strong modeling capacity but typically incur high inference latency, while flow matching enables fast one-step generation yet often leads to unstable execution when applied directly in the raw action space. We propose LG-Flow Policy, a trajectory-level imitation learning framework that performs flow matching in a continuous latent action space. By encoding action sequences into temporally regularized latent trajectories and learning an explicit latent-space flow, the proposed approach decouples global motion structure from low-level control noise, resulting in smooth and reliable long-horizon execution. LG-Flow Policy further incorporates geometry-aware point cloud conditioning and execution-time multimodal modulation, with visual cues evaluated as a representative modality in real-world settings. Experimental results in simulation and on physical robot platforms demonstrate that LG-Flow Policy achieves near single-step inference, substantially improves trajectory smoothness and task success over flow-based baselines operating in the raw action space, and remains significantly more efficient than diffusion-based policies.
- Abstract(参考訳): 長期のロボット操作を学習するには、表現的行動モデリング、リアルタイム推論、安定した実行を共同で達成する必要がある。
拡散ベースのアプローチは、強力なモデリング能力を提供するが、一般的には高い推論遅延を引き起こすが、フローマッチングは高速なワンステップ生成を可能にするが、生のアクション空間に直接適用した場合、しばしば不安定な実行を引き起こす。
本稿では,連続的な潜在行動空間におけるフローマッチングを行う軌道レベルの模倣学習フレームワークであるLG-Flow Policyを提案する。
動作シーケンスを時間的に規則化された潜在軌道に符号化し、明示的な潜在空間の流れを学習することにより、提案手法は低レベル制御ノイズからグローバルな運動構造を分離し、滑らかで信頼性の高い長距離実行を実現する。
LG-Flow Policyは、幾何対応のポイントクラウドコンディショニングと実行時マルチモーダル変調をさらに取り入れ、ビジュアルキューは現実世界の設定における代表的モダリティとして評価される。
シミュレーションおよび物理ロボットプラットフォームにおける実験結果から,LG-Flow Policy は単一ステップの推論に近づき,フローベースベースラインを生の動作空間で動作させ,軌道の滑らかさとタスク成功を大幅に改善し,拡散ベースのポリシーよりもはるかに効率的であることが示された。
関連論文リスト
- From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation [18.70033095161235]
Indicit Likelihood Estimation (IMLE) を用いて条件付きフローマッチングの専門家を高速な単一ステップの学生に蒸留する枠組みを提案する。
双方向のチャンファー距離は、モードカバレッジと忠実度の両方を促進する設定レベルの目的を提供する。
統合認識エンコーダは、さらに多視点RGB、深度、点雲、プロプレセプションを幾何学的認識表現に統合する。
論文 参考訳(メタデータ) (2026-03-10T09:30:05Z) - State-Action Inpainting Diffuser for Continuous Control with Delay [28.10905055038984]
State-Action Inpainting Diffuser (SAID)は、動的学習の帰納バイアスと政策最適化の直接的な意思決定能力を統合するフレームワークである。
本研究は,遅延を伴う継続的制御と強化学習の分野を前進させる新しい手法を提案する。
論文 参考訳(メタデータ) (2026-03-02T07:28:27Z) - Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation [65.13627721310613]
平均速度ポリシー(MVP)は、平均速度場をモデル化し、最速のワンステップアクション生成を実現するための新しい生成ポリシー関数である。
MVPはRoomimicとOGBenchのいくつかの困難なロボット操作タスクに対して、最先端の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-14T14:44:06Z) - Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics [49.242224984144904]
本稿では,プロセス報酬勾配誘導ダイナミクスによる生成を支援する新しいフレームワークであるEuphoniumを提案する。
我々の重要な洞察は、プロセス・リワード・モデルの勾配を明示的に組み込んだ理論的に原理化されたアルゴリズムとしてサンプリング・プロセスを定式化することである。
我々は,誘導信号をフローネットワークに内部化する蒸留目標を導出し,報奨モデルへの推論時間依存性を排除した。
論文 参考訳(メタデータ) (2026-02-04T08:59:57Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency [34.81668269819768]
本稿では,ロボット操作における時間情報を活用するFreqPolicyを提案する。
FreqPolicyは最初、フローベースのビジュモータポリシーに周波数一貫性の制約を課す。
推論周波数93.5Hzの実世界のロボットシナリオにおいて,効率と有効性を示す。
論文 参考訳(メタデータ) (2025-06-10T14:12:53Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。