論文の概要: SeFA-Policy: Fast and Accurate Visuomotor Policy Learning with Selective Flow Alignment
- arxiv url: http://arxiv.org/abs/2511.08583v1
- Date: Wed, 12 Nov 2025 02:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.873833
- Title: SeFA-Policy: Fast and Accurate Visuomotor Policy Learning with Selective Flow Alignment
- Title(参考訳): SeFA-Policy:選択フローアライメントを用いた高速かつ高精度なビジュモータ政策学習
- Authors: Rong Xue, Jiageng Mao, Mingtong Zhang, Yue Wang,
- Abstract要約: 選択フローアライメント(Selective Flow Alignment、SeFA)は、効率的かつ正確なビジュモータポリシー学習フレームワークである。
SeFAはこの課題を選択的フローアライメント戦略によって解決する。
推論遅延を98%以上削減しながら、精度と堅牢性を向上する。
- 参考スコア(独自算出の注目度): 7.446137164545049
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developing efficient and accurate visuomotor policies poses a central challenge in robotic imitation learning. While recent rectified flow approaches have advanced visuomotor policy learning, they suffer from a key limitation: After iterative distillation, generated actions may deviate from the ground-truth actions corresponding to the current visual observation, leading to accumulated error as the reflow process repeats and unstable task execution. We present Selective Flow Alignment (SeFA), an efficient and accurate visuomotor policy learning framework. SeFA resolves this challenge by a selective flow alignment strategy, which leverages expert demonstrations to selectively correct generated actions and restore consistency with observations, while preserving multimodality. This design introduces a consistency correction mechanism that ensures generated actions remain observation-aligned without sacrificing the efficiency of one-step flow inference. Extensive experiments across both simulated and real-world manipulation tasks show that SeFA Policy surpasses state-of-the-art diffusion-based and flow-based policies, achieving superior accuracy and robustness while reducing inference latency by over 98%. By unifying rectified flow efficiency with observation-consistent action generation, SeFA provides a scalable and dependable solution for real-time visuomotor policy learning. Code is available on https://github.com/RongXueZoe/SeFA.
- Abstract(参考訳): 効率的で正確な視覚運動のポリシーを開発することは、ロボット模倣学習における中心的な課題である。
反復蒸留の後、生成した動作は現在の視覚的観察に対応する地道な行動から逸脱し、リフロープロセスが繰り返され、不安定なタスクの実行が繰り返されるにつれてエラーが蓄積する。
Selective Flow Alignment (SeFA) は, 効率的かつ正確なビジュモータポリシー学習フレームワークである。
SeFAはこの課題を選択フローアライメント戦略によって解決し、専門家によるデモンストレーションを活用して、生成したアクションを選択的に修正し、観測との一貫性を回復し、マルチモーダルを保存する。
この設計では、一段階のフロー推論の効率を犠牲にすることなく、生成した動作が観測整列のままであることを保証する整合性補正機構を導入する。
シミュレーションと実世界の操作タスクの両方にわたる大規模な実験は、SeFAポリシーが最先端の拡散ベースおよびフローベースのポリシーを超越し、推論レイテンシを98%以上削減しつつ、精度と堅牢性を向上していることを示している。
修正フロー効率と観測一貫性のあるアクション生成を統一することにより、SeFAはリアルタイムビジュモータポリシー学習のためのスケーラブルで信頼性の高いソリューションを提供する。
コードはhttps://github.com/RongXueZoe/SeFAで入手できる。
関連論文リスト
- FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation [0.7666240799116112]
FlowCorrectはモジュール型のインタラクティブな模倣学習アプローチで、フローマッチング操作ポリシのデプロイメント時適応を可能にする。
実際のロボットを4つのテーブルトップタスク(ピック・アンド・プレイス、注ぐ、カップアップライト、挿入)で評価した。
修正予算の低いFlowCorrectは、以前に失敗したケースで80%の成功率を達成した。
論文 参考訳(メタデータ) (2026-02-25T16:06:49Z) - Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation [65.13627721310613]
平均速度ポリシー(MVP)は、平均速度場をモデル化し、最速のワンステップアクション生成を実現するための新しい生成ポリシー関数である。
MVPはRoomimicとOGBenchのいくつかの困難なロボット操作タスクに対して、最先端の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-14T14:44:06Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories [82.90132015584359]
ReFlowはフローマッチングと理論的に整合性があるが、現実的なシナリオでは最適ではない。
本研究では,ReFlowをベースとした蒸留手法であるFlowSteerを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:13:23Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Improving Generative Behavior Cloning via Self-Guidance and Adaptive Chunking [29.920087317401396]
ジェネレーティブ・ビヘイビア・クローン(Generative Behavior Cloning)は、ロボット学習のためのシンプルで効果的なフレームワークである。
拡散政策の一貫性と反応性を高めるための2つの新しい手法を提案する。
提案手法は,多種多様なシミュレーションおよび実世界のロボット操作タスクにおいて,GBCの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-14T11:16:34Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning [73.40364018029673]
連続的なテスト時間適応オブジェクト検出(CTTA-OD)は、源となる事前訓練された検出器を常に変化する環境にオンライン適応させることを目的としている。
私たちのモチベーションは、学習したすべての特徴が有益であるとは限らないという観察に起因しています。
FLOPの計算オーバヘッドを12%削減し,優れた適応性を実現する。
論文 参考訳(メタデータ) (2025-06-03T05:27:56Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。