論文の概要: OOM-Free Alpamayo via CPU-GPU Memory Swapping for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.11678v1
- Date: Tue, 12 May 2026 07:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.66797
- Title: OOM-Free Alpamayo via CPU-GPU Memory Swapping for Vision-Language-Action Models
- Title(参考訳): CPU-GPUメモリスワッピングによるOOMフリーAlpamayoによる視覚・言語・アクションモデル
- Authors: Seungwoo Roh, Huiyeong Kim, Jong-Chan Kim,
- Abstract要約: 自律運転のためのビジョンランゲージ・アクション(VLA)モデルは、単一ニューラルネットワークにおける知覚、推論、制御を統一する。
本稿では,VRAM制約付きGPU上でメモリ効率のよいVLA推論を実現するフレームワークを提案する。
私たちの作業は、完全なBF16精度を維持しながら、Accelerateのオフロードよりも最大3.55倍のスピードアップを実現しています。
- 参考スコア(独自算出の注目度): 1.1011268090482575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end Vision-Language-Action (VLA) models for autonomous driving unify perception, reasoning, and control in a single neural network, achieving strong driving performance but requiring 20-60GB of GPU memory-far exceeding the 12-16GB available on commodity GPUs. We present a framework, which enables memory-efficient VLA inference on VRAM-constrained GPUs through system-level optimization alone, without model modification. Our work proceeds in three stages: (1) Sequential Demand Layering reduces VRAM usage from model-level to layer-level granularity; (2) Pipelined Demand Layering hides parameter transfer time within layer execution time via transfer--compute overlap; and (3) a GPU-Resident Layer Decision Policy, informed by per-module residency benefit analysis, eliminates the residual transfer overhead that pipelining cannot hide. We further propose a performance prediction model that determines the optimal configuration-both the number and placement of resident layers-from a single profiling run with less than 1.3% prediction error across all configurations. Applied to NVIDIA's Alpamayo-R1-10B (21.52GB) on an RTX 5070Ti (16GB), our work achieves up to 3.55x speedup over Accelerate offloading while maintaining full BF16 precision.
- Abstract(参考訳): 自律運転のためのエンドツーエンドのVision-Language-Action(VLA)モデルは、単一のニューラルネットワークにおいて認識、推論、制御を統一し、強力な駆動性能を実現するが、コモディティGPUで利用可能な12-16GBを超える20-60GBのGPUメモリファームを必要とする。
本稿では,モデル修正なしにシステムレベルの最適化のみで,VRAM制約付きGPU上でメモリ効率のよいVLA推論を可能にするフレームワークを提案する。
1) モデルレベルから層レベルの粒度へのVRAM使用量の削減,(2) パイプラインデマンドレイヤは,転送-計算オーバーラップによるレイヤ実行時間内にパラメータ転送時間を隠蔽する,(3) モジュール単位の常駐メリット分析によって通知されるGPU-常駐層決定ポリシーは,パイプライニングが隠せない残転送オーバーヘッドを排除します。
さらに,全ての構成に対して1.3%未満の予測誤差で1つのプロファイリング実行から常駐層の数と配置を最適に決定する性能予測モデルを提案する。
RTX 5070Ti (16GB) 上のNVIDIAのAlpamayo-R1-10B (21.52GB) に適用すると、我々の作業は、完全なBF16精度を維持しながら、Accelerateのオフロードよりも3.55倍のスピードアップを達成した。
関連論文リスト
- Efficient, VRAM-Constrained xLM Inference on Clients [0.0]
本稿では,ベンチマークによる新しいCPU-GPUハイブリッドスケジューリング手法であるパイプラインシャーディングを提案する。
クライアントシステム上での高密度および混合仕様(MoE)大言語モデル(LLM)のVRAM制約による効率的な推論を実現する。
本論文は2026年の第9回MLSys Conference (Industry Track)で受け入れられた。
論文 参考訳(メタデータ) (2026-04-29T06:35:35Z) - An Efficient Heterogeneous Co-Design for Fine-Tuning on a Single GPU [10.811837575220814]
ドメイン適応には細調整の大型言語モデル(LLM)が不可欠だが、そのメモリ集約性はほとんどのGPUの能力を超えている。
単GPU環境向けに設計された新しいシステムであるSlideFormerを紹介する。
GPUをスライディングウィンドウとして扱い、GPUをCPU更新とマルチ層I/Oでオーバーラップする軽量非同期エンジン。
論文 参考訳(メタデータ) (2026-03-17T12:05:17Z) - ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory [29.245719403159615]
限られたGPUメモリしか持たないLLMの高効率ゼロオーダー微調整のための新しいフレームワークZO2を提案する。
我々のフレームワークは、CPUとGPU間のデータ交換を合理化するAMPモードにおける革新的な低ビット精度アプローチをサポートしている。
論文 参考訳(メタデータ) (2025-03-16T21:58:29Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Pushing the Performance Envelope of DNN-based Recommendation Systems Inference on GPUs [13.720423381263409]
我々は、埋め込みステージがGPU推論パイプラインの主要なボトルネックであり続けており、3.2倍の埋め込みのみのパフォーマンス低下につながっていることを示す。
本稿では,プラグ・アンド・プレイ方式のソフトウェアプリフェッチとL2ピンニング技術を提案し,遅延の隠蔽と低減に役立てる。
提案手法により, 埋込ステージでは最大103%, DLRM推論パイプラインでは最大77%の性能向上が図られた。
論文 参考訳(メタデータ) (2024-10-29T17:13:54Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文 参考訳(メタデータ) (2024-06-14T16:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。