Fugu-MT 論文翻訳(概要): Characterizing VLA Models: Identifying the Action Generation Bottleneck for Edge AI Architectures

論文の概要: Characterizing VLA Models: Identifying the Action Generation Bottleneck for Edge AI Architectures

arxiv url: http://arxiv.org/abs/2603.02271v1
Date: Sun, 01 Mar 2026 01:09:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.486479
Title: Characterizing VLA Models: Identifying the Action Generation Bottleneck for Edge AI Architectures
Title（参考訳）: VLAモデルの特徴:エッジAIアーキテクチャのためのアクション生成ボットの同定
Authors: Manoj Vishwanathan, Suvinay Subramanian, Anand Raghunathan,
Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット工学や最先端のAIに不可欠なワークロードの新たなクラスである。本稿では,Nvidia Jetson OrinとThorの2世代のエッジハードウェア上でのVLA性能を特徴付ける。
参考スコア（独自算出の注目度）: 4.6111834169518735
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models are an emerging class of workloads critical for robotics and embodied AI at the edge. As these models scale, they demonstrate significant capability gains, yet they must be deployed locally to meet the strict latency requirements of real-time applications. This paper characterizes VLA performance on two generations of edge hardware, viz. the Nvidia Jetson Orin and Thor platforms. Using MolmoAct-7B, a state-of-the-art VLA model, we identify a primary execution bottleneck: up to 75% of end-to-end latency is consumed by the memory-bound action-generation phase. Through analytical modeling and simulations, we project the hardware requirements for scaling to 100B parameter models. We also explore the impact of high-bandwidth memory technologies and processing-in-memory (PIM) as promising future pathways in edge systems for embodied AI.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、ロボット工学や最先端のAIに不可欠なワークロードの新たなクラスである。これらのモデルがスケールするにつれて、大きな能力向上を示すが、リアルタイムアプリケーションの厳格なレイテンシ要件を満たすために、ローカルにデプロイする必要がある。本稿では,Nvidia Jetson OrinとThorの2世代のエッジハードウェア上でのVLA性能を特徴付ける。最新のVLAモデルであるM MolmoAct-7B を用いて、主要な実行ボトルネックを特定し、最大75%のエンドツーエンドレイテンシをメモリバウンドアクション生成フェーズで消費する。解析モデルとシミュレーションにより,100Bパラメータモデルへのスケーリングに必要なハードウェア要件を提示する。また,ハイ帯域メモリ技術とPIM(Process-in-Memory)の影響を,組込みAIのためのエッジシステムにおける将来的な経路として検討する。

関連論文リスト

MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。 1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文参考訳（メタデータ） (2026-02-12T09:37:05Z)
Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs [49.99513618431772]
本稿では,モデル精度と推論性能を捉えるハードウェア共同設計法を提案する。我々はNVIDIA Jetson Orin上で1,942の候補アーキテクチャを実証的に評価した。我々のアーキテクチャはWikiText-2で19.42%低いパープレキシティを実現している。
論文参考訳（メタデータ） (2026-02-10T23:51:00Z)
mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文参考訳（メタデータ） (2025-12-17T18:47:31Z)
MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation [22.063033063941788]
MAP-VLA(Memory-Augmented Prompting for Vision-Language-Action Model)は、実証型メモリプロンプトによって訓練済みのVLAモデルを強化し、長距離ロボット操作タスクのためのアクション生成を可能にする新しいフレームワークである。その結果、MAP-VLAは、シミュレーションベンチマークで7.0%の絶対的なパフォーマンス向上を達成でき、また、現在の最先端手法を超越した、長距離タスクにおける実際のロボット評価の25.0%を達成できることがわかった。
論文参考訳（メタデータ） (2025-11-12T17:56:13Z)
DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。 NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文参考訳（メタデータ） (2025-10-14T17:59:47Z)
SVTime: Small Time Series Forecasting Models Informed by "Physics" of Large Vision Model Forecasters [86.38433605933515]
動的Webコンテンツを分析するには時系列AIが不可欠だ。エネルギー集約的なトレーニング、推論、ハードウェアの要求を考えると、大きなモデルを1フィットのソリューションとして使うと、二酸化炭素のフットプリントと持続可能性に対する深刻な懸念が浮かび上がっています。本稿では、長期時系列予測(LTSF)のための大型ビジョンモデル(LVM)予測器にインスパイアされた新しい小型モデルSVTimeを紹介する。
論文参考訳（メタデータ） (2025-10-10T18:42:23Z)
Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs [24.657525276719365]
VLA(Vision-Language-Action)モデルは、ロボット制御のための強力なジェネラリストポリシーとして登場した。本研究は,5つの代表的なVLAモデルの評価を行う。レイテンシ、スループット、ピークメモリ使用量など、システムレベルのメトリクスとともに精度を測定します。
論文参考訳（メタデータ） (2025-09-15T00:00:37Z)
EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。 1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-07-18T16:15:09Z)
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks [37.03331507197761]
既存のVisual-Language-Action(VLA)モデルは、ゼロショットシナリオで有望なパフォーマンスを示している。これらのモデルは通常、大きなサイズのために高い計算オーバーヘッドに悩まされる。本研究では,高いタスク性能を維持しつつ,計算オーバーヘッドを低減するモデルNORAを提案する。
論文参考訳（メタデータ） (2025-04-28T14:47:34Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文参考訳（メタデータ） (2024-10-02T19:29:24Z)
Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、専門的な深層モデルから汎用的な基礎モデルへと進化してきた。 LLMは、ローカルデータセットの微調整と、ネットワークエッジ上のデプロイメントのためのかなりのメモリを必要とする。 LLMは、画像、オーディオ、ビデオ、マルチモーダルコンテンツを作成するために、テキスト生成を超えて拡張されている。 LLMの持続的成長を支援するため,モデル微調整およびモデル圧縮技術が開発されている。
論文参考訳（メタデータ） (2024-08-20T09:42:17Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。