Fugu-MT 論文翻訳(概要): VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

論文の概要: VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2505.22654v1
Date: Wed, 28 May 2025 17:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.793083
Title: VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models
Title（参考訳）: VScan: 効率的な大規模ビジョンランゲージモデルのためのビジュアルトークン削減を再考する
Authors: Ce Zhang, Kaixin Ma, Tianqing Fang, Wenhao Yu, Hongming Zhang, Zhisong Zhang, Yaqi Xie, Katia Sycara, Haitao Mi, Dong Yu,
Abstract要約: VScanは2段階のビジュアルトークン削減フレームワークである。 1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。 VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
参考スコア（独自算出の注目度）: 57.2662376527586
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent Large Vision-Language Models (LVLMs) have advanced multi-modal understanding by incorporating finer-grained visual perception and encoding. However, such methods incur significant computational costs due to longer visual token sequences, posing challenges for real-time deployment. To mitigate this, prior studies have explored pruning unimportant visual tokens either at the output layer of the visual encoder or at the early layers of the language model. In this work, we revisit these design choices and reassess their effectiveness through comprehensive empirical studies of how visual tokens are processed throughout the visual encoding and language decoding stages. Guided by these insights, we propose VScan, a two-stage visual token reduction framework that addresses token redundancy by: (1) integrating complementary global and local scans with token merging during visual encoding, and (2) introducing pruning at intermediate layers of the language model. Extensive experimental results across four LVLMs validate the effectiveness of VScan in accelerating inference and demonstrate its superior performance over current state-of-the-arts on sixteen benchmarks. Notably, when applied to LLaVA-NeXT-7B, VScan achieves a 2.91$\times$ speedup in prefilling and a 10$\times$ reduction in FLOPs, while retaining 95.4% of the original performance.
Abstract（参考訳）: 近年のLVLM(Large Vision-Language Models)は、よりきめ細かな視覚認識と符号化を取り入れて、高度なマルチモーダル理解を実現している。しかし、このような手法は、より長い視覚トークンシーケンスのためにかなりの計算コストを発生させ、リアルタイムデプロイメントの課題を提起する。これを軽減するために、以前の研究では、視覚エンコーダの出力層または言語モデルの初期層で重要でない視覚トークンをプルーニングすることを検討した。本研究では、これらの設計選択を再考し、視覚的エンコーディングと言語復号段階を通して視覚的トークンがどのように処理されるかに関する総合的な実証的研究を通して、その効果を再評価する。これらの知見に導かれたVScanは,トークン冗長性に対処する2段階の視覚的トークン削減フレームワークである。(1)視覚的エンコーディング中に,補完的グローバルスキャンと局所スキャンを統合し,(2)言語モデルの中間層にプルーニングを導入する。 4つのLVLMにまたがる大規模な実験結果から,VScanによる推論の高速化の有効性が検証された。特に、LLaVA-NeXT-7Bに適用すると、VScanはプリフィル時の2.91$\times$のスピードアップと10$\times$のFLOPを実現し、オリジナルのパフォーマンスの95.4%を維持している。

関連論文リスト

ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文参考訳（メタデータ） (2025-06-27T14:55:40Z)
Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文参考訳（メタデータ） (2025-06-11T08:46:55Z)
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。 20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文参考訳（メタデータ） (2025-03-27T09:31:35Z)
FCoT-VL:Advancing Text-oriented Large Vision-Language Models with Efficient Visual Token Compression [16.53645461974695]
現在の訓練不要なビジュアルトークン圧縮法は、高解像度画像を含むタスクにおいて深刻な性能劣化を示す。テキスト指向視覚大言語モデル(VLLM)の高解像度シナリオにおける効率的なビジュアルトークン圧縮フレームワークを提案する。提案手法は,テキスト指向ベンチマークにおいて,ベースラインよりも高い性能を保ちながら,計算オーバーヘッドを大幅に低減する。
論文参考訳（メタデータ） (2025-02-22T16:05:33Z)
Rethinking Homogeneity of Vision and Text Tokens in Large Vision-and-Language Models [29.611769371733672]
本稿では,視覚とテキストの埋め込みを別々に処理する新しい手法であるDe Attention (D-Attn)を提案する。 D-Attn は視覚と視覚の自己注意を対角化し、計算を $mathcalO(|V|2)$から $mathcalO(|V|)$ for $|V|$ に還元する。
論文参考訳（メタデータ） (2025-02-04T00:46:11Z)
Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。 11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文参考訳（メタデータ） (2025-02-02T13:10:06Z)
VASparse: Towards Efficient Visual Hallucination Mitigation via Visual-Aware Token Sparsification [44.97217246897902]
LVLM(Large Vision-Language Models)は、視覚幻覚(VH)としても知られる、現実に忠実でない出力を生成する。 Visual-Aware Sparsification (VASparse) を用いた効率的なプラグアンドプレイデコーディングアルゴリズムを提案する。 VHを緩和し、競争力のある復号速度を維持しながら、VASparseは最先端の性能を達成する。
論文参考訳（メタデータ） (2025-01-11T14:09:34Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-09T08:23:20Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。