論文の概要: Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.06038v1
- Date: Fri, 08 Aug 2025 05:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.094311
- Title: Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models
- Title(参考訳): フーリエVLM:大規模視覚言語モデルのための周波数領域における圧縮型視覚トークン
- Authors: Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin,
- Abstract要約: Vision-Language Models (VLM) は通常、定義された画像プレースホルダートークンをイメージエンコーダの視覚的特徴に置き換え、バックボーンのLarge Language Model (LLM) への入力を形成する。
本稿では,周波数領域における視覚表現を圧縮するシンプルで効率的なFourier-VLMを提案する。
我々のアプローチは、視覚エンコーダから出力される視覚特徴が低周波成分に集中したエネルギーを示すという観察に動機づけられている。
- 参考スコア(独自算出の注目度): 28.76975615001349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) typically replace the predefined image placeholder token (<image>) in textual instructions with visual features from an image encoder, forming the input to a backbone Large Language Model (LLM). However, the large number of vision tokens significantly increases the context length, leading to high computational overhead and inference latency. While previous efforts mitigate this by selecting only important visual features or leveraging learnable queries to reduce token count, they often compromise performance or introduce substantial extra costs. In response, we propose Fourier-VLM, a simple yet efficient method that compresses visual representations in the frequency domain. Our approach is motivated by the observation that vision features output from the vision encoder exhibit concentrated energy in low-frequency components. Leveraging this, we apply a low-pass filter to the vision features using a two-dimentional Discrete Cosine Transform (DCT). Notably, the DCT is efficiently computed via the Fast Fourier Transform (FFT) operator with a time complexity of $\mathcal{O}(n\log n)$, minimizing the extra computational cost while introducing no additional parameters. Extensive experiments across various image-based benchmarks demonstrate that Fourier-VLM achieves competitive performance with strong generalizability across both LLaVA and Qwen-VL architectures. Crucially, it reduce inference FLOPs by up to 83.8% and boots generation speed by 31.2% compared to LLaVA-v1.5, highlighting the superior efficiency and practicality.
- Abstract(参考訳): Vision-Language Models (VLM) は通常、テキスト命令で定義された画像プレースホルダートークン(<image>)を画像エンコーダの視覚的特徴に置き換え、バックボーン大言語モデル (LLM) への入力を形成する。
しかし、多数の視覚トークンがコンテキスト長を著しく増加させ、高い計算オーバーヘッドと推論遅延をもたらす。
以前の取り組みでは、重要な視覚的特徴のみを選択したり、トークン数を減らすために学習可能なクエリを活用することで、これを緩和する一方で、パフォーマンスを損なったり、大幅な追加コストを導入することも多かった。
そこで本研究では,周波数領域における視覚表現を圧縮するシンプルで効率的なFourier-VLMを提案する。
我々のアプローチは、視覚エンコーダから出力される視覚特徴が低周波成分に集中したエネルギーを示すという観察に動機づけられている。
これを利用して、2次元離散コサイン変換(DCT)を用いて、低域通過フィルタを視覚特徴量に適用する。
特に、DCTは、$\mathcal{O}(n\log n)$の時間複雑さを持つFast Fourier Transform (FFT)演算子を介して効率的に計算され、追加のパラメータを導入せずに余分な計算コストを最小化する。
様々な画像ベースベンチマークによる大規模な実験により、Fourier-VLMはLLaVAとQwen-VLアーキテクチャの両方で強力な一般化性を持つ競争性能を達成している。
重要な点として、FLOPを最大83.8%削減し、LLaVA-v1.5と比較して生成速度を31.2%削減し、優れた効率と実用性を強調している。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - FastVLM: Efficient Vision Encoding for Vision Language Models [22.41836943083826]
我々は,レイテンシ,モデルサイズ,精度のトレードオフを最適化したモデルであるFastVLMを紹介する。
FastVLMには、より少ないトークンを出力するように設計された新しいハイブリッドビジョンエンコーダであるFastViTHDが組み込まれている。
LLaVA-1.5では、FastVLMは3.2$times$改善された。
論文 参考訳(メタデータ) (2024-12-17T20:09:55Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。