論文の概要: SeFA-Policy: Fast and Accurate Visuomotor Policy Learning with Selective Flow Alignment
- arxiv url: http://arxiv.org/abs/2511.08583v1
- Date: Wed, 12 Nov 2025 02:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.873833
- Title: SeFA-Policy: Fast and Accurate Visuomotor Policy Learning with Selective Flow Alignment
- Title(参考訳): SeFA-Policy:選択フローアライメントを用いた高速かつ高精度なビジュモータ政策学習
- Authors: Rong Xue, Jiageng Mao, Mingtong Zhang, Yue Wang,
- Abstract要約: 選択フローアライメント(Selective Flow Alignment、SeFA)は、効率的かつ正確なビジュモータポリシー学習フレームワークである。
SeFAはこの課題を選択的フローアライメント戦略によって解決する。
推論遅延を98%以上削減しながら、精度と堅牢性を向上する。
- 参考スコア(独自算出の注目度): 7.446137164545049
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developing efficient and accurate visuomotor policies poses a central challenge in robotic imitation learning. While recent rectified flow approaches have advanced visuomotor policy learning, they suffer from a key limitation: After iterative distillation, generated actions may deviate from the ground-truth actions corresponding to the current visual observation, leading to accumulated error as the reflow process repeats and unstable task execution. We present Selective Flow Alignment (SeFA), an efficient and accurate visuomotor policy learning framework. SeFA resolves this challenge by a selective flow alignment strategy, which leverages expert demonstrations to selectively correct generated actions and restore consistency with observations, while preserving multimodality. This design introduces a consistency correction mechanism that ensures generated actions remain observation-aligned without sacrificing the efficiency of one-step flow inference. Extensive experiments across both simulated and real-world manipulation tasks show that SeFA Policy surpasses state-of-the-art diffusion-based and flow-based policies, achieving superior accuracy and robustness while reducing inference latency by over 98%. By unifying rectified flow efficiency with observation-consistent action generation, SeFA provides a scalable and dependable solution for real-time visuomotor policy learning. Code is available on https://github.com/RongXueZoe/SeFA.
- Abstract(参考訳): 効率的で正確な視覚運動のポリシーを開発することは、ロボット模倣学習における中心的な課題である。
反復蒸留の後、生成した動作は現在の視覚的観察に対応する地道な行動から逸脱し、リフロープロセスが繰り返され、不安定なタスクの実行が繰り返されるにつれてエラーが蓄積する。
Selective Flow Alignment (SeFA) は, 効率的かつ正確なビジュモータポリシー学習フレームワークである。
SeFAはこの課題を選択フローアライメント戦略によって解決し、専門家によるデモンストレーションを活用して、生成したアクションを選択的に修正し、観測との一貫性を回復し、マルチモーダルを保存する。
この設計では、一段階のフロー推論の効率を犠牲にすることなく、生成した動作が観測整列のままであることを保証する整合性補正機構を導入する。
シミュレーションと実世界の操作タスクの両方にわたる大規模な実験は、SeFAポリシーが最先端の拡散ベースおよびフローベースのポリシーを超越し、推論レイテンシを98%以上削減しつつ、精度と堅牢性を向上していることを示している。
修正フロー効率と観測一貫性のあるアクション生成を統一することにより、SeFAはリアルタイムビジュモータポリシー学習のためのスケーラブルで信頼性の高いソリューションを提供する。
コードはhttps://github.com/RongXueZoe/SeFAで入手できる。
関連論文リスト
- Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Improving Generative Behavior Cloning via Self-Guidance and Adaptive Chunking [29.920087317401396]
ジェネレーティブ・ビヘイビア・クローン(Generative Behavior Cloning)は、ロボット学習のためのシンプルで効果的なフレームワークである。
拡散政策の一貫性と反応性を高めるための2つの新しい手法を提案する。
提案手法は,多種多様なシミュレーションおよび実世界のロボット操作タスクにおいて,GBCの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-14T11:16:34Z) - One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Efficient Test-time Adaptive Object Detection via Sensitivity-Guided Pruning [73.40364018029673]
連続的なテスト時間適応オブジェクト検出(CTTA-OD)は、源となる事前訓練された検出器を常に変化する環境にオンライン適応させることを目的としている。
私たちのモチベーションは、学習したすべての特徴が有益であるとは限らないという観察に起因しています。
FLOPの計算オーバヘッドを12%削減し,優れた適応性を実現する。
論文 参考訳(メタデータ) (2025-06-03T05:27:56Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。