論文の概要: Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs
- arxiv url: http://arxiv.org/abs/2509.11480v1
- Date: Mon, 15 Sep 2025 00:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.104127
- Title: Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs
- Title(参考訳): エッジからクラウドGPUへのビジョンランゲージ・アクションモデルのクロスプラットフォームスケーリング
- Authors: Amir Taherin, Juyi Lin, Arash Akbari, Arman Akbari, Pu Zhao, Weiwei Chen, David Kaeli, Yanzhi Wang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット制御のための強力なジェネラリストポリシーとして登場した。
本研究は,5つの代表的なVLAモデルの評価を行う。
レイテンシ、スループット、ピークメモリ使用量など、システムレベルのメトリクスとともに精度を測定します。
- 参考スコア(独自算出の注目度): 24.657525276719365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as powerful generalist policies for robotic control, yet their performance scaling across model architectures and hardware platforms, as well as their associated power budgets, remain poorly understood. This work presents an evaluation of five representative VLA models -- spanning state-of-the-art baselines and two newly proposed architectures -- targeting edge and datacenter GPU platforms. Using the LIBERO benchmark, we measure accuracy alongside system-level metrics, including latency, throughput, and peak memory usage, under varying edge power constraints and high-performance datacenter GPU configurations. Our results identify distinct scaling trends: (1) architectural choices, such as action tokenization and model backbone size, strongly influence throughput and memory footprint; (2) power-constrained edge devices exhibit non-linear performance degradation, with some configurations matching or exceeding older datacenter GPUs; and (3) high-throughput variants can be achieved without significant accuracy loss. These findings provide actionable insights when selecting and optimizing VLAs across a range of deployment constraints. Our work challenges current assumptions about the superiority of datacenter hardware for robotic inference.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット制御のための強力なジェネラリストポリシとして登場したが、モデルアーキテクチャやハードウェアプラットフォームをまたいだパフォーマンススケーリングと関連する電力予算は、いまだに理解されていない。
この研究は、最先端のベースラインにまたがる5つの代表的なVLAモデルと、エッジとデータセンタのGPUプラットフォームをターゲットにした2つの新しいアーキテクチャの評価を提示している。
LIBEROベンチマークを用いて、レイテンシ、スループット、ピークメモリ使用量などのシステムレベルのメトリクスとともに、エッジパワーの制約や高性能なデータセンタGPU構成の下で精度を測定する。
その結果,(1)アクショントークン化やモデルバックボーンサイズ,スループットやメモリフットプリントに強い影響を与えるアーキテクチャ上の選択,(2)電力制約のエッジデバイスは,古いデータセンタGPUに適合あるいは超過した構成で非線形性能の低下を示す,(3)高スループットの変形は,精度の低下を伴わずに達成できる,といった傾向が明らかになった。
これらの発見は、さまざまなデプロイメント制約を越えてVLAを選択し、最適化する際に、実行可能な洞察を提供する。
我々の研究は、ロボット推論におけるデータセンターハードウェアの優位性に関する現在の仮定に挑戦している。
関連論文リスト
- Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文 参考訳(メタデータ) (2025-09-12T16:05:07Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Efficient Partitioning Vision Transformer on Edge Devices for Distributed Inference [13.533267828812455]
本稿では,複数のエッジデバイスにまたがる複雑な視覚変換器を効率的に分割・実行するための新しいフレームワークED-ViTを提案する。
私たちのアプローチでは、Vision Transformerモデルをいくつかのサブモデルに分割し、それぞれがデータクラスの特定のサブセットを処理する。
本研究では,エッジデバイスにおける推論遅延を大幅に削減し,モデルサイズを最大28.9倍,34.1倍に削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T14:38:14Z) - Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities [11.53488611812612]
近年のVision-Language(VL)モデルの進歩は、エッジデバイスへの展開への関心を喚起している。
We introduced EdgeVL, a novel framework that seamlessly integrates dual-modality knowledge distillation and Quantization-aware contrastive learning。
私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。
論文 参考訳(メタデータ) (2024-03-07T21:34:40Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。