論文の概要: LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics
- arxiv url: http://arxiv.org/abs/2603.03380v1
- Date: Tue, 03 Mar 2026 03:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.026887
- Title: LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics
- Title(参考訳): LiteVLA-Edge:組み込みロボットのための量子オンデバイスマルチモーダル制御
- Authors: Justin Williams, Kishor Datta Gupta, Roy George, Mrinmoy Sarkar,
- Abstract要約: 本稿では,Jetson Orinクラスハードウェア上でのデバイス上での完全な推論のための,デプロイメント指向のVLAパイプラインであるLiteVLA-Edgeを紹介する。
提案手法は、FP32における教師付きイメージ・ツー・アクションの微調整と、4ビットGGUF量子化とGPU加速推論を組み合わせたものである。
我々の構成では、LiteVLA-Edgeは、完全にオフラインで動作しながら、150.5,ms(約6.6,Hz)の平均エンドツーエンドランタイムを達成する。
- 参考スコア(独自算出の注目度): 0.6119773373677944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models provide a unified framework for perception, language conditioning, and action generation, but many existing systems remain difficult to deploy in embedded robotic settings because of their computational requirements and inference latency. In this paper, we present LiteVLA-Edge, a deployment-oriented VLA pipeline for fully on-device inference on Jetson Orin-class hardware. Our approach combines supervised image-to-action fine-tuning in FP32 with post-training 4-bit GGUF quantization and GPU-accelerated inference through the \texttt{llama.cpp} runtime. Under our deployment configuration, LiteVLA-Edge achieves a mean end-to-end latency of 150.5\,ms (approximately 6.6\,Hz) while operating entirely offline within a ROS~2-integrated perception--reasoning--action pipeline. Rather than introducing a new policy objective, our contribution is a practical systems path for executing compact multimodal control models locally on embedded hardware while preserving modular interfaces between perception, reasoning, and actuation. These results establish timing feasibility for reactive language-conditioned control and provide a reproducible baseline for future task-level evaluation of on-device VLAs in robotics.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、知覚、言語条件付け、アクション生成のための統一されたフレームワークを提供するが、多くの既存のシステムは、計算要求と推論遅延のため、組込みロボット環境でのデプロイが困難である。
本稿では,Jetson Orinクラスハードウェア上でのデバイス上での完全な推論を実現するために,デプロイメント指向のVLAパイプラインであるLiteVLA-Edgeを提案する。
提案手法は、FP32における教師付きイメージ・ツー・アクションの微調整と、4ビットGGUF量子化の後のトレーニングと、 \texttt{llama.cpp}ランタイムによるGPU加速推論を組み合わせたものである。
デプロイメント構成では、LiteVLA-Edgeは150.5\,ms(約6.6\,Hz)の平均エンドツーエンドのレイテンシを実現します。
我々の貢献は、新しい政策目標を導入するのではなく、組み込みハードウェア上でコンパクトなマルチモーダル制御モデルを実行するための実践的なシステムパスであり、知覚、推論、アクチュエーター間のモジュラーインターフェースを保っている。
これらの結果から,ロボット工学におけるデバイス上でのVLAのタスクレベル評価のための再現可能なベースラインを提供する。
関連論文リスト
- AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - Vision-Language Models on the Edge for Real-Time Robotic Perception [0.22940141855172028]
6G内のエッジインテリジェンス、特にOpen RANとMulti- Access Edge Computingは、これらの課題に対処するための経路を提供する。
本研究は,Unitree G1ヒューマノイドロボットを具現化したテストベッドとして,ORAN/MECインフラストラクチャ上でのビジョンランゲージモデルの展開について検討する。
その結果,エッジデプロイメントはクラウドに近い精度を保ちながら,エンドツーエンドのレイテンシを5%削減できることがわかった。
論文 参考訳(メタデータ) (2026-01-21T12:09:48Z) - ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge [11.016302257907936]
VLA(Vision-Language-Action)モデルは、ロボットの知覚と制御の統一パラダイムとして登場した。
現在のVLAモデルは、自己回帰復号のメモリバウンド特性のため、エッジデバイス上でわずか3-5Hzで動作する。
本稿では,リソース制約のあるエッジプレート形式に適したシステムレベルの推論フレームワークであるActionFlowを紹介する。
論文 参考訳(メタデータ) (2025-12-23T11:29:03Z) - Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation [10.09057399213028]
Vision-Language-Action(VLA)システムは、意味論的推論のためのVision-Language Model(VLM)と、連続的なアクション信号を生成するアクションエキスパートを統合する。
本稿では,非同期なFast-Slow VLAフレームワーク(DuoCore-FS)を導入し,アクション生成のための高速経路とリッチなVLM推論のための遅い経路にシステムを編成する。
論文 参考訳(メタデータ) (2025-12-23T09:28:20Z) - Video Object Recognition in Mobile Edge Networks: Local Tracking or Edge Detection? [57.000348519630286]
モバイルエッジコンピューティングの最近の進歩により、高精度ニューラルネットワークを備えたエッジサーバに集約的なオブジェクト検出をオフロードすることが可能になった。
このハイブリッドアプローチは有望なソリューションを提供するが、新たな課題として、エッジ検出とローカルトラッキングのタイミングを決定する。
局所的なトラッキングとエッジ検出を適応的に選択する深層強化学習に基づくアルゴリズムである単一デバイス環境での LTED-Ada を提案する。
論文 参考訳(メタデータ) (2025-11-25T04:54:51Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - Real-Time Detection and Tracking of Foreign Object Intrusions in Power Systems via Feature-Based Edge Intelligence [4.60587070358843]
本稿では,電力伝送システムにおけるリアルタイム異物侵入(FOI)検出と追跡のための新しい枠組みを提案する。
本フレームワークは,(1)高速で堅牢なオブジェクトローカライゼーションのためのYOLOv7セグメンテーションモデル,(2)三重項損失を訓練したConvNeXtベースの特徴抽出器,(3)特徴支援IoUトラッカーを統合した。
スケーラブルなフィールドデプロイメントを実現するため、パイプラインは、混合精度推論を使用して、低コストのエッジハードウェアへのデプロイメントに最適化されている。
論文 参考訳(メタデータ) (2025-09-16T17:17:03Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。