論文の概要: FlashVLM: Text-Guided Visual Token Selection for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2512.20561v1
- Date: Tue, 23 Dec 2025 18:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.959187
- Title: FlashVLM: Text-Guided Visual Token Selection for Large Multimodal Models
- Title(参考訳): FlashVLM:大規模マルチモーダルモデルのためのテキストガイド型ビジュアルトークン選択
- Authors: Kaitong Cai, Jusheng Zhang, Jing Yang, Yijia Fan, Pengtao Xie, Jian Wang, Keze Wang,
- Abstract要約: 大規模な視覚言語モデル(VLM)は通常、画像やビデオフレームごとに数百から数千の視覚トークンを処理する。
問合せに視覚入力を動的に適応するテキストガイド型視覚トークン選択フレームワークであるFlashVLMを提案する。
FlashVLMは、投影された画像トークンと言語モデル空間における正規化テキスト埋め込みとの明示的なクロスモーダルな類似性を計算する。
- 参考スコア(独自算出の注目度): 28.507631461458093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) typically process hundreds or thousands of visual tokens per image or video frame, incurring quadratic attention cost and substantial redundancy. Existing token reduction methods often ignore the textual query or rely on deep attention maps, whose instability under aggressive pruning leads to degraded semantic alignment. We propose FlashVLM, a text guided visual token selection framework that dynamically adapts visual inputs to the query. Instead of relying on noisy attention weights, FlashVLM computes an explicit cross modal similarity between projected image tokens and normalized text embeddings in the language model space. This extrinsic relevance is fused with intrinsic visual saliency using log domain weighting and temperature controlled sharpening. In addition, a diversity preserving partition retains a minimal yet representative set of background tokens to maintain global context. Under identical token budgets and evaluation protocols, FlashVLM achieves beyond lossless compression, slightly surpassing the unpruned baseline while pruning up to 77.8 percent of visual tokens on LLaVA 1.5, and maintaining 92.8 percent accuracy even under 94.4 percent compression. Extensive experiments on 14 image and video benchmarks demonstrate that FlashVLM delivers state of the art efficiency performance trade offs while maintaining strong robustness and generalization across mainstream VLMs.
- Abstract(参考訳): 大規模な視覚言語モデル(VLM)は通常、画像やビデオフレームごとに数百から数千の視覚トークンを処理する。
既存のトークン削減手法は、しばしばテキストクエリを無視したり、アグレッシブプルーニングの不安定さが意味的アライメントの低下につながるような深い注意マップに依存している。
問合せに視覚入力を動的に適応するテキストガイド型視覚トークン選択フレームワークであるFlashVLMを提案する。
ノイズの多い注意重みに頼る代わりに、FlashVLMは、投影された画像トークンと言語モデル空間における正規化テキスト埋め込みとの明示的なクロスモーダルな類似性を計算する。
この外因性関連性は、ログドメイン重み付けと温度制御シャープニングを用いて、内因性視覚塩分と融合する。
さらに、多様性保存パーティションは、グローバルなコンテキストを維持するために、最小でも代表的なバックグラウンドトークンのセットを保持する。
同一のトークン予算と評価プロトコルの下では、FlashVLMは損失のない圧縮を達成し、未処理のベースラインをわずかに上回り、LLaVA 1.5で77.8%のビジュアルトークンをプルーニングし、94.4%の圧縮でも92.8%の精度を維持している。
14の画像とビデオのベンチマークによる大規模な実験により、FlashVLMは、主流のVLMに対して強い堅牢性と一般化を維持しながら、最先端の効率性向上のトレードオフを提供することを示した。
関連論文リスト
- CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training [78.60953331455565]
PRIORは、NTP損失の差分重み付けによって画像関連トークンを優先する、視覚言語による事前学習手法である。
NTPと比較した場合, 平均相対的改善率は19%, 8%であった。
論文 参考訳(メタデータ) (2025-05-13T21:27:52Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。