Fugu-MT 論文翻訳(概要): Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

論文の概要: Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment

arxiv url: http://arxiv.org/abs/2604.24447v1
Date: Mon, 27 Apr 2026 13:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:08.01588
Title: Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment
Title（参考訳）: XPU間のビジョン・ランゲージ・アクションモデルの特徴付け:オンロボット展開の制約と高速化
Authors: Kaijun Zhou, Qiwei Chen, Da Peng, Zhiyang Li, Xijun Li, Jinyu Gu,
Abstract要約: VLA(Vision-Language-Action)モデルは、一般的なロボット制御に期待できるが、ロボット上での展開は、コストとエネルギー予算の厳しいリアルタイム推論によってボトルネックとなる。本稿では,モデル・ハードウエアのコキャラクタリゼーションによる低コストVLAデプロイメントの系統的解析を行う。
参考スコア（独自算出の注目度）: 8.758783768535805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models are promising for generalist robot control, but on-robot deployment is bottlenecked by real-time inference under tight cost and energy budgets. Most prior evaluations rely on desktop-grade GPUs, obscuring the trade-offs and opportunities offered by heterogeneous edge accelerators (GPUs/XPUs/NPUs). We present a systematic analysis for low-cost VLA deployment via model-hardware co-characterization. First, we build a cross-accelerator leaderboard and evaluate model-hardware pairs under CET (Cost, Energy, Time), showing that right-sized edge devices can be more cost-/energy-efficient than flagship GPUs while meeting control-rate constraints. Second, using in-depth profiling, we uncover a consistent two-phase inference pattern: a compute-bound VLM backbone followed by a memory-bound Action Expert, which induces phase-dependent underutilization and hardware inefficiency. Finally, guided by these insights, we propose DP-Cache and V-AEFusion to reduce diffusion redundancy and enable asynchronous pipeline parallelism, achieving up to 2.9x speedup on GPUs and 6x on edge NPUs with only marginal success degradation. The example leaderboard website is available at: https://vla-leaderboard-01.vercel.app/.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、一般的なロボット制御に期待できるが、ロボット上での展開は、コストとエネルギー予算の厳しいリアルタイム推論によってボトルネックとなる。以前の評価のほとんどは、デスクトップグレードのGPUに依存しており、異種エッジアクセラレータ(GPU/XPU/NPU)が提供するトレードオフと機会を無視している。本稿では,モデル・ハードウエアのコキャラクタリゼーションによる低コストVLAデプロイメントの系統的解析を行う。まず、クロスアクセラレータのリーダーボードを構築し、CET(Cost, Energy, Time)の下でモデル-ハードウエアのペアを評価し、コントロールレートの制約を満たしながら、適切なサイズのエッジデバイスがフラッグシップGPUよりもコスト/エネルギー効率が高いことを示す。第二に、深度プロファイリングを用いて、一貫した2相推論パターンを明らかにする: 計算バウンドなVLMバックボーンとメモリバウンドなアクションエキスパート。最後に,拡散冗長性を低減し,非同期パイプライン並列化を実現するためにDPキャッシュとV-AEFusionを提案し,GPU上で2.9倍の高速化を実現し,エッジNPU上で6倍の高速化を実現した。 Leaderboardの例は、https://vla- Leaderboard-01.vercel.app/.comで公開されている。

関連論文リスト

A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。 A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文参考訳（メタデータ） (2026-04-07T10:18:40Z)
LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics [0.6119773373677944]
本稿では,Jetson Orinクラスハードウェア上でのデバイス上での完全な推論のための,デプロイメント指向のVLAパイプラインであるLiteVLA-Edgeを紹介する。提案手法は、FP32における教師付きイメージ・ツー・アクションの微調整と、4ビットGGUF量子化とGPU加速推論を組み合わせたものである。我々の構成では、LiteVLA-Edgeは、完全にオフラインで動作しながら、150.5,ms(約6.6,Hz)の平均エンドツーエンドランタイムを達成する。
論文参考訳（メタデータ） (2026-03-03T03:20:52Z)
Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs [24.657525276719365]
VLA(Vision-Language-Action)モデルは、ロボット制御のための強力なジェネラリストポリシーとして登場した。本研究は,5つの代表的なVLAモデルの評価を行う。レイテンシ、スループット、ピークメモリ使用量など、システムレベルのメトリクスとともに精度を測定します。
論文参考訳（メタデータ） (2025-09-15T00:00:37Z)
Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。 OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文参考訳（メタデータ） (2024-10-28T17:54:31Z)
Turbocharge Speech Understanding with Pilot Inference [0.9699101045941684]
本稿では,資源制約のあるエッジデバイス上での現代音声理解の促進を図る。デバイス上での実行をスピードアップする、デバイス容量を超える入力をオフロードする、というハイブリッドなアプローチが必要です。プロトタイプはPASUと呼ばれ、Armプラットフォーム上で6～8コアでテストされており、SOTAの精度が得られます。
論文参考訳（メタデータ） (2023-11-22T17:14:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。