論文の概要: LiteVLA-H: Dual-Rate Vision-Language-Action Inference for Onboard Aerial Guidance and Semantic Perception
- arxiv url: http://arxiv.org/abs/2605.00884v1
- Date: Mon, 27 Apr 2026 06:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.446779
- Title: LiteVLA-H: Dual-Rate Vision-Language-Action Inference for Onboard Aerial Guidance and Semantic Perception
- Title(参考訳): LiteVLA-H: 空中誘導と意味知覚のためのデュアルレート・ビジョン・ランゲージ・アクション推論
- Authors: Justn williams, Kishor Datta Gupta, Roy George, Mrinmoy Sarkar,
- Abstract要約: 本稿では,Jets NVIDIAon AGX Orin上での2段演算のためのコンパクト256MパラメータVLAシステムLiteVLA-Hを提案する。
中心的な経験的観察は、このコンパクトなエッジ状態において、エンドツーエンドのレイテンシはマルチモーダルなプリフィルによって支配されるということである。
記述能力を損なうことなくモデルを専門化するために、反応飛行データ、空中意味データ、一般的なキャプション/VQA監視を混合した知識保存型微調整レシピを使用する。
- 参考スコア(独自算出の注目度): 0.6119773373677944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models have shown strong semantic grounding and task generalization in manipulation, but aerial deployment remains difficult because drones require low-latency closed-loop guidance under strict onboard compute and communication constraints. We present LiteVLA-H, a compact 256M-parameter VLA system designed for dual-rate operation on an NVIDIA Jetson AGX Orin: a fast outer-loop guidance mode for short action-token outputs and a slower semantic mode for scene understanding, hazard description, and operator-facing narration. The central empirical observation is that, in this compact edge regime, end-to-end latency is dominated by multimodal pre-fill rather than by the marginal cost of decoding a few extra tokens. This motivates a scheduler that issues reactive action tokens at 50.65,ms (19.74,Hz) while still supporting sentence-level semantic outputs at 149.90--164.57\ms (6.08--6.67,Hz) on the same embedded platform. To specialize the model without collapsing its descriptive competence, we use a knowledge-preserving fine-tuning recipe that mixes reactive flight data, aerial semantic data, and generic caption/VQA supervision. Beyond reporting current latency measurements, we position the system against recent state-of-the-art architectures, including AnywhereVLA, FutureVLA, and ReMem-VLA, showing that the measured action branch reaches a higher edge inference rate under our deployment conditions while retaining periodic semantic awareness.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、操作において強力なセマンティックグラウンドとタスクの一般化を示すが、ドローンは厳密な計算と通信の制約の下で低レイテンシのクローズループガイダンスを必要とするため、空中展開は依然として困難である。
本稿では,NVIDIA Jetson AGX Orin上での256MパラメーターVLAシステムであるLiteVLA-Hについて述べる。
中心的な実証的な観察は、このコンパクトなエッジ状態において、エンド・ツー・エンドのレイテンシは、いくつかの余分なトークンを復号する限界コストよりも、マルチモーダルなプリフィルによって支配されるということである。
これは、50.65,ms (19.74,Hz)でリアクティブアクショントークンを発行するスケジューラのモチベーションであり、同じ組み込みプラットフォーム上で、文レベルのセマンティックアウトプットを149.90--164.57\ms (6.08--6.67,Hz)でサポートしている。
記述能力を損なうことなくモデルを専門化するために、反応飛行データ、空中意味データ、一般的なキャプション/VQA監視を混合した知識保存型微調整レシピを使用する。
現在のレイテンシ測定の報告以外にも、AnywhereVLA、FutureVLA、ReMem-VLAを含む最新の最先端アーキテクチャに対してシステムを配置し、計測されたアクションブランチが周期的な意味認識を維持しながら、デプロイメント条件下でより高いエッジ推論速度に達することを示す。
関連論文リスト
- Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery [62.75419724651416]
textbfSentinel-VLAは,リアルタイム実行状況を監視するアクティブセンチネルモジュールを備えたメタ認知型VLAモデルである。
すべてのトレーニングデータは、設計したパイプラインを通じて自動生成され、注釈付けされます。
実世界の実験では、Sentinel-VLAはSOTAモデルであるPI0と比較してタスク成功率を30%以上向上することを示した。
論文 参考訳(メタデータ) (2026-05-02T02:10:54Z) - VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models [80.1055544841585]
ビジョン・ランゲージ・アクションモデルは通常、視覚観察と言語指示を直接ロボット制御信号にマッピングする。
本稿では,高レベルの推論と低レベルの実行を,構造化された視覚的プロンプトインタフェースを介して分離する,デュアルシステムフレームワークであるVP-VLAを提案する。
Robocasa-GR1-TabletopベンチマークとSimplerEnvシミュレーションの実験は、VP-VLAが成功率を5%と8.3%改善することを示した。
論文 参考訳(メタデータ) (2026-03-23T14:08:58Z) - StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating [8.031311182554981]
長距離ロボット操作は、高レベルの計画と低レベルの制御のギャップを埋める必要がある。
現在のVision-Language-Actionモデルは、しばしばこれらのプロセスを絡めて、各ステップで冗長なマルチモーダル推論を実行する。
本稿では、テキストタスクの分解、視覚目標の想像力、連続的なアクション生成を単一のパラメータ効率のバックボーン内で統合するデュアルシステムアーキテクチャStreamVLAを提案する。
論文 参考訳(メタデータ) (2026-02-01T08:51:17Z) - TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control [15.534182843429043]
大規模なVision-Language-Action(VLA)モデルはセマンティックな一般化を提供するが、高い推論遅延に悩まされる。
本稿では,高頻度動作から意味論的推論を分離する階層型フレームワークであるTIDALを提案する。
TIDALは、二重周波数アーキテクチャを用いて拡散ベースのVLAのためのバックボーンに依存しないモジュールとして動作する。
論文 参考訳(メタデータ) (2026-01-21T12:43:11Z) - Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models [16.321608201919474]
大規模マルチモーダルデータセットで事前訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、ロボットの知覚と制御の強力な基盤として現れている。
タスク性能を維持しながらVLA推論を高速化する訓練不要なトークン圧縮フレームワークであるExpand Token-and-Merge-VLAを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:59:24Z) - SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation [65.6201974979119]
本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。
SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
論文 参考訳(メタデータ) (2025-11-13T17:24:37Z) - Open-Vocabulary Spatio-Temporal Scene Graph for Robot Perception and Teleoperation Planning [55.90805559207812]
動的リモートシーンでは、双方向通信における伝送遅延は、リモート認識状態とオペレータ意図の間のギャップを生じさせる。
本稿では,時間的ダイナミクスと軽量遅延アノテーションを用いて,オープン語彙認識を充実させる表現を提案する。
提案手法はReplicaベンチマークで74%のノード精度を実現し,Concept.Graphよりも優れていた。
論文 参考訳(メタデータ) (2025-09-27T04:31:24Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。