論文の概要: Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.06038v2
- Date: Mon, 11 Aug 2025 03:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 13:12:52.305657
- Title: Fourier-VLM: Compressing Vision Tokens in the Frequency Domain for Large Vision-Language Models
- Title(参考訳): フーリエVLM:大規模視覚言語モデルのための周波数領域における圧縮型視覚トークン
- Authors: Huanyu Wang, Jushi Kai, Haoli Bai, Lu Hou, Bo Jiang, Ziwei He, Zhouhan Lin,
- Abstract要約: Vision-Language Models (VLM) は通常、定義された画像プレースホルダートークンをイメージエンコーダの視覚的特徴に置き換え、バックボーンのLarge Language Model (LLM) への入力を形成する。
本稿では,周波数領域における視覚表現を圧縮するシンプルで効率的なFourier-VLMを提案する。
我々のアプローチは、視覚エンコーダから出力される視覚特徴が低周波成分に集中したエネルギーを示すという観察に動機づけられている。
- 参考スコア(独自算出の注目度): 28.76975615001349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) typically replace the predefined image placeholder token (<image>) in textual instructions with visual features from an image encoder, forming the input to a backbone Large Language Model (LLM). However, the large number of vision tokens significantly increases the context length, leading to high computational overhead and inference latency. While previous efforts mitigate this by selecting only important visual features or leveraging learnable queries to reduce token count, they often compromise performance or introduce substantial extra costs. In response, we propose Fourier-VLM, a simple yet efficient method that compresses visual representations in the frequency domain. Our approach is motivated by the observation that vision features output from the vision encoder exhibit concentrated energy in low-frequency components. Leveraging this, we apply a low-pass filter to the vision features using a two-dimensional Discrete Cosine Transform (DCT). Notably, the DCT is efficiently computed via the Fast Fourier Transform (FFT) operator with a time complexity of $\mathcal{O}(n\log n)$, minimizing the extra computational cost while introducing no additional parameters. Extensive experiments across various image-based benchmarks demonstrate that Fourier-VLM achieves competitive performance with strong generalizability across both LLaVA and Qwen-VL architectures. Crucially, it reduce inference FLOPs by up to 83.8% and boots generation speed by 31.2% compared to LLaVA-v1.5, highlighting the superior efficiency and practicality.
- Abstract(参考訳): Vision-Language Models (VLM) は通常、テキスト命令で定義された画像プレースホルダートークン(<image>)を画像エンコーダの視覚的特徴に置き換え、バックボーン大言語モデル (LLM) への入力を形成する。
しかし、多数の視覚トークンがコンテキスト長を著しく増加させ、高い計算オーバーヘッドと推論遅延をもたらす。
以前の取り組みでは、重要な視覚的特徴のみを選択したり、トークン数を減らすために学習可能なクエリを活用することで、これを緩和する一方で、パフォーマンスを損なったり、大幅な追加コストを導入することも多かった。
そこで本研究では,周波数領域における視覚表現を圧縮するシンプルで効率的なFourier-VLMを提案する。
我々のアプローチは、視覚エンコーダから出力される視覚特徴が低周波成分に集中したエネルギーを示すという観察に動機づけられている。
そこで我々は,2次元離散コサイン変換(DCT)を用いて,低域通過フィルタを視覚特徴量に適用する。
特に、DCTは、$\mathcal{O}(n\log n)$の時間複雑さを持つFast Fourier Transform (FFT)演算子を介して効率的に計算され、追加のパラメータを導入せずに余分な計算コストを最小化する。
様々な画像ベースベンチマークによる大規模な実験により、Fourier-VLMはLLaVAとQwen-VLアーキテクチャの両方で強力な一般化性を持つ競争性能を達成している。
重要な点として、FLOPを最大83.8%削減し、LLaVA-v1.5と比較して生成速度を31.2%削減し、優れた効率と実用性を強調している。
関連論文リスト
- Variation-aware Vision Token Dropping for Faster Large Vision-Language Models [24.952668143243542]
大規模視覚言語モデル(LVLM)はマルチモーダル理解タスクにおいて顕著な機能を示した。
トーケン圧縮は、処理されるトークンの数を減らすことにより、計算効率を向上させることにより、直接的な解を提供する。
我々は,LVLM推論中に最小限の変動を伴う視覚トークンを段階的に除去する,変分認識型視覚トークンドロップ(textiti.e., textbfV$2$Drop)を提案する。
論文 参考訳(メタデータ) (2025-09-01T15:28:44Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。
20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文 参考訳(メタデータ) (2025-03-27T09:31:35Z) - FastVLM: Efficient Vision Encoding for Vision Language Models [22.41836943083826]
我々は,レイテンシ,モデルサイズ,精度のトレードオフを最適化したモデルであるFastVLMを紹介する。
FastVLMには、より少ないトークンを出力するように設計された新しいハイブリッドビジョンエンコーダであるFastViTHDが組み込まれている。
LLaVA-1.5では、FastVLMは3.2$times$改善された。
論文 参考訳(メタデータ) (2024-12-17T20:09:55Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。