論文の概要: Efficient Inference for Large Vision-Language Models: Bottlenecks, Techniques, and Prospects
- arxiv url: http://arxiv.org/abs/2604.05546v2
- Date: Tue, 14 Apr 2026 01:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.114169
- Title: Efficient Inference for Large Vision-Language Models: Bottlenecks, Techniques, and Prospects
- Title(参考訳): 大規模視覚言語モデルの効率的な推論:ボトルネック, 技術, 展望
- Authors: Jun Zhang, Yicheng Ji, Feiyang Ren, Yihang Li, Bowen Zeng, Zonghao Chen, Ke Chen, Lidan Shou, Gang Chen, Huan Li,
- Abstract要約: LVLM(Large Vision-Language Models)は、画像やビデオに対する洗練された推論を可能にするが、その推論は視覚トークン支配として知られるシステム的効率障壁によって妨げられる。
提案手法は,符号化,プリフィル,デコードからなる推論ライフサイクルを中心に構築された効率技術に関する系統分類である。
- 参考スコア(独自算出の注目度): 26.144665202231014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) enable sophisticated reasoning over images and videos, yet their inference is hindered by a systemic efficiency barrier known as visual token dominance. This overhead is driven by a multi-regime interplay between high-resolution feature extraction, quadratic attention scaling, and memory bandwidth constraints. We present a systematic taxonomy of efficiency techniques structured around the inference lifecycle, consisting of encoding, prefilling, and decoding. Unlike prior reviews focused on isolated optimizations, we analyze the end-to-end pipeline to reveal how upstream decisions dictate downstream bottlenecks, covering compute-bound visual encoding, the intensive prefilling of massive contexts, and the ''visual memory wall'' in bandwidth-bound decoding. By decoupling the efficiency landscape into the axes of shaping information density, managing long-context attention, and overcoming memory limits, this work provides a structured analysis of how isolated optimizations compose to navigate the trade-off between visual fidelity and system efficiency. The survey concludes by outlining four future frontiers supported by pilot empirical insights, including hybrid compression based on functional unit sensitivity, modality-aware decoding with relaxed verification, progressive state management for streaming continuity, and stage-disaggregated serving through hardware-algorithm co-design. Our literature repository is at https://github.com/SuDIS-ZJU/Efficient-LVLMs-Inference.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、画像やビデオに対する洗練された推論を可能にするが、その推論は視覚トークン支配として知られるシステム的効率障壁によって妨げられる。
このオーバーヘッドは、高分解能な特徴抽出、二次的な注意スケーリング、メモリ帯域幅の制約とのマルチレジズメントによって引き起こされる。
提案手法は,符号化,プリフィル,デコードからなる推論ライフサイクルを中心に構築された効率技術に関する系統分類である。
分離された最適化に焦点を当てた以前のレビューとは異なり、アップストリームの決定が下流のボトルネックをどのように規定するかを明らかにするためにエンドツーエンドパイプラインを分析し、計算バウンドの視覚的エンコーディング、巨大なコンテキストの集中的なプリフィル、帯域バウンドのデコーディングにおける'ビジュアルメモリウォール'をカバーしています。
情報密度の形成,長時間の注意の維持,メモリ制限の克服といった軸に効率の景観を分離することにより,視覚的忠実度とシステム効率のトレードオフをナビゲートするために,分離最適化がどのように構成されるのかを構造化した分析を行う。
この調査では,機能単位の感度に基づくハイブリッド圧縮,緩和された検証によるモダリティ認識復号化,ストリーミング継続のためのプログレッシブステート管理,ハードウェアとアルゴリズムの共設計によるステージ分離機能など,パイロット経験に基づく4つの将来のフロンティアについて概説した。
文献リポジトリはhttps://github.com/SuDIS-ZJU/Efficient-LVLMs-Inferenceにあります。
関連論文リスト
- Attention-aware Inference Optimizations for Large Vision-Language Models with Memory-efficient Decoding [32.02306732686021]
本稿では,大規模視覚言語モデルに適した適応型・注目型最適化フレームワークであるAttentionPackについて述べる。
AttentionPackはメモリ効率を最大8倍改善し、より高いバッチサイズと高速なバッチ推論を可能にします。
また,アテンションPackとエビテーション,量子化,カーネル融合の併用効果についても報告する。
論文 参考訳(メタデータ) (2026-03-25T04:01:10Z) - StreamingEval: A Unified Evaluation Protocol towards Realistic Streaming Video Understanding [26.728635060807377]
StreamingEvalは、現実的な制約の下でビデオ-LLMのストリーミングビデオ理解能力を評価するための統一的な評価フレームワークである。
我々は、歴史的視覚コンテキストを正規化するために固定容量メモリバンクを採用し、アクセス可能な視覚符号化効率、テキスト復号遅延、タスクパフォーマンスを共同評価する。
論文 参考訳(メタデータ) (2026-03-23T02:31:11Z) - MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Resource-Efficient Multiview Perception: Integrating Semantic Masking with Masked Autoencoders [6.498925999634298]
本稿では、マスク付きオートエンコーダ(MAE)を用いた通信効率の高い分散マルチビュー検出と追跡のための新しい手法を提案する。
本稿では,事前訓練されたセグメンテーションモデルと調整可能なパワー関数を利用して,情報領域の優先順位付けを行う意味誘導型マスキング手法を提案する。
我々は,仮想および実世界のマルチビューデータセットを用いて本手法の評価を行い,性能指標の検出と追跡において同等の性能を示す。
論文 参考訳(メタデータ) (2024-10-07T08:06:41Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。