論文の概要: AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge
- arxiv url: http://arxiv.org/abs/2602.13476v1
- Date: Fri, 13 Feb 2026 21:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.045841
- Title: AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge
- Title(参考訳): AsyncVLA:エッジ上の高速かつロバストなナビゲーションのための非同期VLA
- Authors: Noriaki Hirose, Catherine Glossop, Dhruv Shah, Sergey Levine,
- Abstract要約: 高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
- 参考スコア(独自算出の注目度): 49.66156306240961
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robotic foundation models achieve strong generalization by leveraging internet-scale vision-language representations, but their massive computational cost creates a fundamental bottleneck: high inference latency. In dynamic environments, this latency breaks the control loop, rendering powerful models unsafe for real-time deployment. We propose AsyncVLA, an asynchronous control framework that decouples semantic reasoning from reactive execution. Inspired by hierarchical control, AsyncVLA runs a large foundation model on a remote workstation to provide high-level guidance, while a lightweight, onboard Edge Adapter continuously refines actions at high frequency. To bridge the domain gap between these asynchronous streams, we introduce an end-to-end finetuning protocol and a trajectory re-weighting strategy that prioritizes dynamic interactions. We evaluate our approach on real-world vision-based navigation tasks with communication delays up to 6 seconds. AsyncVLA achieves a 40% higher success rate than state-of-the-art baselines, effectively bridging the gap between the semantic intelligence of large models and the reactivity required for edge robotics.
- Abstract(参考訳): ロボット基礎モデルは、インターネットスケールの視覚言語表現を活用することで強力な一般化を実現するが、その膨大な計算コストは、高い推論遅延という根本的なボトルネックを生み出す。
動的環境では、このレイテンシは制御ループを壊し、強力なモデルをリアルタイムデプロイメントでは安全ではないようにします。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
階層的な制御にインスパイアされたAsyncVLAは、高レベルのガイダンスを提供するために、リモートワークステーション上で大きな基盤モデルを実行します。
これらの非同期ストリーム間のドメインギャップを埋めるために、動的相互作用を優先するエンドツーエンドの微調整プロトコルと軌道再重み付け戦略を導入する。
実世界の視覚に基づくナビゲーションタスクに対して,通信遅延を最大6秒で評価する。
AsyncVLAは最先端のベースラインよりも40%高い成功率を実現し、大規模モデルのセマンティックインテリジェンスとエッジロボティクスに必要な反応性のギャップを効果的に埋める。
関連論文リスト
- OneLive: Dynamically Unified Generative Framework for Live-Streaming Recommendation [49.95897358060393]
ライブストリーミングに適した動的に統一された生成レコメンデーションフレームワークであるOneLiveを提案する。
OneLiveは4つの重要なコンポーネントを統合している: (i) (i) (i) (i) (i) (ii) (II) 時間的決定のための時間的ダイナミクスを明示的にモデル化するタイムアウェア・ゲーテッド・アテンション機構; (iii) シーケンシャル MTP と QK Norm で強化された効率的なデコーダのみ生成アーキテクチャ。
論文 参考訳(メタデータ) (2026-02-09T12:56:39Z) - TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control [15.534182843429043]
大規模なVision-Language-Action(VLA)モデルはセマンティックな一般化を提供するが、高い推論遅延に悩まされる。
本稿では,高頻度動作から意味論的推論を分離する階層型フレームワークであるTIDALを提案する。
TIDALは、二重周波数アーキテクチャを用いて拡散ベースのVLAのためのバックボーンに依存しないモジュールとして動作する。
論文 参考訳(メタデータ) (2026-01-21T12:43:11Z) - Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation [10.09057399213028]
Vision-Language-Action(VLA)システムは、意味論的推論のためのVision-Language Model(VLM)と、連続的なアクション信号を生成するアクションエキスパートを統合する。
本稿では,非同期なFast-Slow VLAフレームワーク(DuoCore-FS)を導入し,アクション生成のための高速経路とリッチなVLM推論のための遅い経路にシステムを編成する。
論文 参考訳(メタデータ) (2025-12-23T09:28:20Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers [12.373320641721344]
大型ビジョンランゲージ・アクション(VLA)モデルは、その印象的な一般化能力のためにロボット制御において有望であることが示されている。
数十億のパラメータを持つVLMバックエンドへの依存は、高い計算コストと遅延推定につながる。
本稿では,柔軟な周波数・性能トレードオフを実現する階層型ロボットトランスフォーマフレームワークであるHiRTを提案する。
論文 参考訳(メタデータ) (2024-09-12T09:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。