論文の概要: VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
- arxiv url: http://arxiv.org/abs/2512.01031v1
- Date: Sun, 30 Nov 2025 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.546873
- Title: VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
- Title(参考訳): VLASH: 将来対応型非同期推論によるリアルタイムVLA
- Authors: Jiaming Tang, Yufei Sun, Yilong Zhao, Shang Yang, Yujun Lin, Zhuoyang Zhang, James Hou, Yao Lu, Zhijian Liu, Song Han,
- Abstract要約: 非同期推論は、連続および低レイテンシ制御を実現するための有望なソリューションを提供する。
本稿では,ビジョン・ランゲージ・アクションモデルのための一般的な非同期推論フレームワークであるVLASHを提案する。
追加のオーバーヘッドやアーキテクチャの変更なしに、スムーズで、正確で、高速な反応制御を提供する。
- 参考スコア(独自算出の注目度): 24.248289541718275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models (VLAs) are becoming increasingly capable across diverse robotic tasks. However, their real-world deployment remains slow and inefficient: demonstration videos are often sped up by 5-10x to appear smooth, with noticeable action stalls and delayed reactions to environmental changes. Asynchronous inference offers a promising solution to achieve continuous and low-latency control by enabling robots to execute actions and perform inference simultaneously. However, because the robot and environment continue to evolve during inference, a temporal misalignment arises between the prediction and execution intervals. This leads to significant action instability, while existing methods either degrade accuracy or introduce runtime overhead to mitigate it. We propose VLASH, a general asynchronous inference framework for VLAs that delivers smooth, accurate, and fast reaction control without additional overhead or architectural changes. VLASH estimates the future execution-time state by rolling the robot state forward with the previously generated action chunk, thereby bridging the gap between prediction and execution. Experiments show that VLASH achieves up to 2.03x speedup and reduces reaction latency by up to 17.4x compared to synchronous inference while fully preserving the original accuracy. Moreover, it empowers VLAs to handle fast-reaction, high-precision tasks such as playing ping-pong and playing whack-a-mole, where traditional synchronous inference fails. Code is available at https://github.com/mit-han-lab/vlash
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、多様なロボットタスクにまたがる能力が高まっている。
しかし、実世界の展開は遅く、非効率であり、デモビデオはスムーズに見え、顕著な動作停止と環境変化に対する遅延反応を伴う5~10倍の速度で再生されることが多い。
非同期推論は、ロボットが動作を実行し、同時に推論を実行することによって、連続かつ低レイテンシ制御を実現するための有望なソリューションを提供する。
しかし、ロボットと環境は推論中に進化し続けるため、予測と実行間隔の間に時間的ミスアライメントが発生する。
既存のメソッドは精度を低下させるか、ランタイムオーバーヘッドを導入してそれを緩和する。
オーバヘッドやアーキテクチャの変更を伴わずにスムーズで正確で高速な反応制御を実現するVLASHという,VLAのための一般的な非同期推論フレームワークを提案する。
VLASHは、ロボット状態を予め生成したアクションチャンクで前方に回転させることで、将来の実行時刻を推定し、予測と実行のギャップを埋める。
実験によると、VLASHは最大2.03倍のスピードアップを実現し、元の精度を保ちながら同期推論と比較して最大17.4倍の遅延を減少させる。
さらに、VLAは、従来の同期推論が失敗するping-pongやwack-a-moleなどの高速で高精度なタスクを処理することができる。
コードはhttps://github.com/mit-han-lab/vlashで入手できる。
関連論文リスト
- Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Real-Time Execution of Action Chunking Flow Policies [49.1574468325115]
本稿では,アクションインタラクションシステムの非同期実行を可能にする新しい推論時アルゴリズムを提案する。
これは、再トレーニングなしでボックスから実行する拡散またはVLAベースのシステムに適用できる。
その結果、RTCは高速で、性能が高く、推論操作に対して一意に堅牢であることがわかった。
論文 参考訳(メタデータ) (2025-06-09T01:01:59Z) - Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction [81.34648970317383]
本稿では,知覚,決定,反応を両立させるシステムであるDispiderを紹介する。
実験により、Dispiderは従来のビデオQAタスクにおいて高いパフォーマンスを維持しているだけでなく、ストリーミングシナリオ応答における従来のオンラインモデルを大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-06T18:55:10Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers [12.373320641721344]
大型ビジョンランゲージ・アクション(VLA)モデルは、その印象的な一般化能力のためにロボット制御において有望であることが示されている。
数十億のパラメータを持つVLMバックエンドへの依存は、高い計算コストと遅延推定につながる。
本稿では,柔軟な周波数・性能トレードオフを実現する階層型ロボットトランスフォーマフレームワークであるHiRTを提案する。
論文 参考訳(メタデータ) (2024-09-12T09:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。