論文の概要: CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies
- arxiv url: http://arxiv.org/abs/2604.24622v1
- Date: Mon, 27 Apr 2026 15:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.130249
- Title: CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies
- Title(参考訳): CF-VLA:ビジョン・ランゲージ・アクション・ポリシーのための高効率粗大なアクション生成
- Authors: Fan Du, Feng Yan, Jianxiong Wu, Xinrun Xu, Weiye Zhang, Weinong Wang, Yu Guo, Bin Qian, Zhihai He,
- Abstract要約: フローベースの視覚言語アクション(VLA)ポリシーは、アクション生成に対して強い表現力を提供するが、基本的な非効率性に悩まされる。
生成行動モデリングにおける出発点の役割を再考することでこの問題に対処する。
サンプリング軌道を短縮する代わりに、粗い2段階の定式化であるCF-VLAを提案する。
- 参考スコア(独自算出の注目度): 23.133196430327107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow-based vision-language-action (VLA) policies offer strong expressivity for action generation, but suffer from a fundamental inefficiency: multi-step inference is required to recover action structure from uninformative Gaussian noise, leading to a poor efficiency-quality trade-off under real-time constraints. We address this issue by rethinking the role of the starting point in generative action modeling. Instead of shortening the sampling trajectory, we propose CF-VLA, a coarse-to-fine two-stage formulation that restructures action generation into a coarse initialization step that constructs an action-aware starting point, followed by a single-step local refinement that corrects residual errors. Concretely, the coarse stage learns a conditional posterior over endpoint velocity to transform Gaussian noise into a structured initialization, while the fine stage performs a fixed-time refinement from this initialization. To stabilize training, we introduce a stepwise strategy that first learns a controlled coarse predictor and then performs joint optimization. Experiments on CALVIN and LIBERO show that our method establishes a strong efficiency-performance frontier under low-NFE (Number of Function Evaluations) regimes: it consistently outperforms existing NFE=2 methods, matches or surpasses the NFE=10 $π_{0.5}$ baseline on several metrics, reduces action sampling latency by 75.4\%, and achieves the best average real-robot success rate of 83.0\%, outperforming MIP by 19.5 points and $π_{0.5}$ by 4.0 points. These results suggest that structured, coarse-to-fine generation enables both strong performance and efficient inference. Our code is available at https://github.com/EmbodiedAI-RoboTron/CF-VLA.
- Abstract(参考訳): フローベースの視覚言語アクション(VLA)ポリシーは、アクション生成に対して強い表現性を提供するが、基本的な非効率性に苦しむ。
生成行動モデリングにおける出発点の役割を再考することでこの問題に対処する。
サンプリング軌道を短縮する代わりに、動作生成を粗い初期化ステップに再構成する粗い2段階の定式化であるCF-VLAを提案する。
具体的には、粗いステージは、条件付き終端速度を学習してガウスノイズを構造化初期化に変換し、微細ステージは、この初期化から固定時間改善を行う。
トレーニングを安定させるために、まず制御された粗い予測器を学習し、次に共同最適化を行うステップワイズ戦略を導入する。
CALVIN と LIBERO の実験により,我々の手法は低 NFE (Number of Function Evaluations) 体制下で高い効率性能のフロンティアを確立することを示し,既存の NFE=2 法を一貫して上回り,NFE=10 $π_{0.5}$ベースラインを上回り,アクションサンプリングのレイテンシを 75.4 % 削減し,平均実ロボット成功率 83.0 % を達成し,MIP を 19.5 ポイント, π_{0.5}$ 4.0 ポイント上回った。
これらの結果は、構造化された粗大な生成は、強い性能と効率的な推論の両方を可能にすることを示唆している。
私たちのコードはhttps://github.com/EmbodiedAI-RoboTron/CF-VLAで利用可能です。
関連論文リスト
- A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - FAVE: Flow-based Average Velocity Establishment for Sequential Recommendation [33.3202615024807]
本稿では,フローベース平均速度設定(Fave)フレームワークを提案する。
Faveは、ターゲット分布の前に情報提供者から直接軌跡を学習する。
3つのベンチマークの実験では、Faveは最先端のレコメンデーションパフォーマンスを達成するだけでなく、推論効率のオーダー・オブ・マグニチュードの改善も実現している。
論文 参考訳(メタデータ) (2026-04-06T05:17:43Z) - Mean-Flow based One-Step Vision-Language-Action [15.497933767026568]
FlowMatchingベースのVision-Language-Action(VLA)フレームワークは、高周波アクションチャンクを生成する上で、顕著なアドバンテージを示している。
それらは、本質的に反復的なサンプリング要件とアーキテクチャ上の制限から生じる、世代遅延の延長によって制約される。
本稿では,アクション生成プロセスにおけるノイズによる問題を解消する,平均フローに基づくワンステップVLA手法を提案する。
論文 参考訳(メタデータ) (2026-03-02T05:30:30Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Dual-End Consistency Model [41.982957134224904]
スロー反復サンプリングは拡散モデルとフローベース生成モデルの実践的展開において大きなボトルネックとなる。
本稿では,安定かつ効果的なトレーニングを実現するために,バイタルサブ軌道クラスタを選択するDual-End Consistency Model (DE-CM)を提案する。
提案手法は,ImageNet 256x256データセットの1ステップ生成において,最先端のFIDスコア1.70を達成し,既存のCMベースのワンステップアプローチよりも優れていた。
論文 参考訳(メタデータ) (2026-02-11T11:51:01Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。