論文の概要: VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions
- arxiv url: http://arxiv.org/abs/2603.23495v1
- Date: Tue, 24 Mar 2026 17:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.630595
- Title: VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions
- Title(参考訳): VISion On Request: スパース、動的選択、視覚言語相互作用によるVLLM効率の向上
- Authors: Adrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos,
- Abstract要約: 視覚情報を捨てることなく推論コストを削減するVISOR(VISion On Request)を導入する。
VISORは画像とテキストトークン間の相互作用をスパースすることで効率を向上する。
実験により、VISORは、最先端の結果を一致または超えながら、計算コストを大幅に削減することが示された。
- 参考スコア(独自算出の注目度): 51.41587958253802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches for improving the efficiency of Large Vision-Language Models (LVLMs) are largely based on the concept of visual token reduction. This approach, however, creates an information bottleneck that impairs performance, especially on challenging tasks that require fine-grained understanding and reasoning. In this work, we challenge this paradigm by introducing VISion On Request (VISOR), a method that reduces inference cost without discarding visual information. Instead of compressing the image, VISOR improves efficiency by sparsifying the interaction between image and text tokens. Specifically, the language model attends to the full set of high-resolution visual tokens through a small, strategically placed set of attention layers: general visual context is provided by efficient cross-attention between text-image, while a few well-placed and dynamically selected self-attention layers refine the visual representations themselves, enabling complex, high-resolution reasoning when needed. Based on this principle, we first train a single universal network on a range of computational budgets by varying the number of self-attention layers, and then introduce a lightweight policy mechanism that dynamically allocates visual computation based on per-sample complexity. Extensive experiments show that VISOR drastically reduces computational cost while matching or exceeding state-of-the-art results across a diverse suite of benchmarks, and excels in challenging tasks that require detailed visual understanding.
- Abstract(参考訳): 既存のLVLM(Large Vision-Language Models)の効率向上のためのアプローチは、主に視覚トークンの低減の概念に基づいている。
しかしこのアプローチは、特にきめ細かい理解と推論を必要とする困難なタスクにおいて、パフォーマンスを損なう情報ボトルネックを生み出します。
本研究では,視覚情報を捨てることなく推論コストを削減するVISOR(VISOR)を導入することで,このパラダイムに挑戦する。
画像を圧縮する代わりに、VISORは画像とテキストトークン間の相互作用をスパースすることで効率を向上する。
特に、言語モデルは、小さな戦略的に配置された注意層を通して、高解像度の視覚トークンの完全なセットに付随する: 一般的な視覚コンテキストは、テキストイメージ間の効率的な相互アテンションによって提供され、いくつかのよく配置され、動的に選択された自己アテンション層は、視覚表現自体を洗練し、必要に応じて複雑で高解像度な推論を可能にする。
この原理に基づいて,まず,自己注意層数を変化させることにより,計算予算の幅で単一のユニバーサルネットワークを訓練し,さらに,サンプル単位の複雑性に基づいて動的に視覚的計算を割り当てる軽量なポリシー機構を導入する。
大規模な実験により、VISORは様々なベンチマークスイートにまたがって、最先端の結果をマッチングしたり超えたりしながら、計算コストを大幅に削減し、詳細な視覚的理解を必要とする課題に優れていることが示されている。
関連論文リスト
- MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。