論文の概要: AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.14148v1
- Date: Tue, 18 Nov 2025 05:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.950365
- Title: AsyncVLA: Asynchronous Flow Matching for Vision-Language-Action Models
- Title(参考訳): AsyncVLA:ビジョンランゲージ・アクションモデルのための非同期フローマッチング
- Authors: Yuhua Jiang, Shuang Cheng, Yan Ding, Feifei Gao, Biqing Qi,
- Abstract要約: AsyncVLAは非同期フローマッチングVLAモデルに時間的柔軟性を導入する新しいフレームワークである。
AsyncVLAは、アクションコンテキスト認識を備えた非一様時間スケジュールでアクショントークンを生成することで、VLAモデルのバニラSFMからブレークする。
提案手法では,初期発生したアクションの信頼度を抽出する信頼性レーサを導入し,不正確なアクショントークンを選択的に洗練する。
- 参考スコア(独自算出の注目度): 42.73842262661805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models have recently emerged as a powerful paradigm for building generalist robots. However, traditional VLA models that generate actions through flow matching (FM) typically rely on rigid and uniform time schedules, i.e., synchronous FM (SFM). Without action context awareness and asynchronous self-correction, SFM becomes unstable in long-horizon tasks, where a single action error can cascade into failure. In this work, we propose asynchronous flow matching VLA (AsyncVLA), a novel framework that introduces temporal flexibility in asynchronous FM (AFM) and enables self-correction in action generation. AsyncVLA breaks from the vanilla SFM in VLA models by generating the action tokens in a non-uniform time schedule with action context awareness. Besides, our method introduces the confidence rater to extract confidence of the initially generated actions, enabling the model to selectively refine inaccurate action tokens before execution. Moreover, we propose a unified training procedure for SFM and AFM that endows a single model with both modes, improving KV-cache utilization. Extensive experiments on robotic manipulation benchmarks demonstrate that AsyncVLA is data-efficient and exhibits self-correction ability. AsyncVLA achieves state-of-the-art results across general embodied evaluations due to its asynchronous generation in AFM. Our code is available at https://github.com/YuhuaJiang2002/AsyncVLA.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、最近、ジェネラリストロボットを構築するための強力なパラダイムとして登場した。
しかしながら、フローマッチング(FM)によってアクションを生成する従来のVLAモデルは、通常、厳密で均一な時間スケジュール、すなわち同期FM(SFM)に依存している。
アクションコンテキストの認識と非同期の自己補正がなければ、SFMは長期のタスクでは不安定になり、単一のアクションエラーが失敗に陥る可能性がある。
本稿では非同期FM(AFM)における時間的柔軟性を導入し,動作生成における自己補正を可能にする新しいフレームワークである非同期フローマッチングVLA(AsyncVLA)を提案する。
AsyncVLAは、アクションコンテキスト認識を備えた非一様時間スケジュールでアクショントークンを生成することで、VLAモデルのバニラSFMからブレークする。
さらに,本手法では,初期発生したアクションの信頼度を抽出する信頼性レーダを導入し,実行前に不正確なアクショントークンを選択的に洗練する。
さらに,両モードの単一モデルを実現するSFMとAFMの統一的なトレーニング手法を提案し,KV-cacheの利用性を向上する。
ロボット操作ベンチマークに関する大規模な実験は、AsyncVLAがデータ効率が高く、自己補正能力を示すことを示している。
AsyncVLAは、AFMの非同期生成により、一般的な具体的評価にまたがって、最先端の結果を達成する。
私たちのコードはhttps://github.com/YuhuaJiang2002/AsyncVLA.comで利用可能です。
関連論文リスト
- NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - FlowState: Sampling Rate Invariant Time Series Forecasting [0.7999703756441756]
FlowStateは、新しい時系列基礎モデル(TSFM)アーキテクチャである。
本質的に全ての可能な時間分解能を一般化し、予測する地平線を動的に調整する。
GIFT-ZSとChronos-ZSベンチマークの最先端である。
論文 参考訳(メタデータ) (2025-08-07T11:30:26Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Shallow Flow Matching for Coarse-to-Fine Text-to-Speech Synthesis [31.221799170851142]
Shallow Flow Matching (SFM) は、フローマッチング(FM)ベースのテキスト音声合成(TTS)モデルを強化する新しいメカニズムである。
主観的評価と主観的評価の両面において,SFMは音声の自然性において一貫した利得が得られることを示す。
論文 参考訳(メタデータ) (2025-05-18T04:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。