論文の概要: FastVLM: Efficient Vision Encoding for Vision Language Models
- arxiv url: http://arxiv.org/abs/2412.13303v1
- Date: Tue, 17 Dec 2024 20:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:50.987237
- Title: FastVLM: Efficient Vision Encoding for Vision Language Models
- Title(参考訳): FastVLM: ビジョン言語モデルのための効率的なビジョンエンコーディング
- Authors: Pavan Kumar Anasosalu Vasu, Fartash Faghri, Chun-Liang Li, Cem Koc, Nate True, Albert Antony, Gokul Santhanam, James Gabriel, Peter Grasch, Oncel Tuzel, Hadi Pouransari,
- Abstract要約: 我々は,レイテンシ,モデルサイズ,精度のトレードオフを最適化したモデルであるFastVLMを紹介する。
FastVLMは、より少ないトークンを出力し、高解像度画像の符号化時間を著しく短縮するように設計された、新しいハイブリッドビジョンエンコーダであるFastViTHDを組み込んでいる。
- 参考スコア(独自算出の注目度): 22.41836943083826
- License:
- Abstract: Scaling the input image resolution is essential for enhancing the performance of Vision Language Models (VLMs), particularly in text-rich image understanding tasks. However, popular visual encoders such as ViTs become inefficient at high resolutions due to the large number of tokens and high encoding latency caused by stacked self-attention layers. At different operational resolutions, the vision encoder of a VLM can be optimized along two axes: reducing encoding latency and minimizing the number of visual tokens passed to the LLM, thereby lowering overall latency. Based on a comprehensive efficiency analysis of the interplay between image resolution, vision latency, token count, and LLM size, we introduce FastVLM, a model that achieves an optimized trade-off between latency, model size and accuracy. FastVLM incorporates FastViTHD, a novel hybrid vision encoder designed to output fewer tokens and significantly reduce encoding time for high-resolution images. Unlike previous methods, FastVLM achieves the optimal balance between visual token count and image resolution solely by scaling the input image, eliminating the need for additional token pruning and simplifying the model design. In the LLaVA-1.5 setup, FastVLM achieves 3.2$\times$ improvement in time-to-first-token (TTFT) while maintaining similar performance on VLM benchmarks compared to prior works. Compared to LLaVa-OneVision at the highest resolution (1152$\times$1152), FastVLM achieves comparable performance on key benchmarks like SeedBench and MMMU, using the same 0.5B LLM, but with 85$\times$ faster TTFT and a vision encoder that is 3.4$\times$ smaller.
- Abstract(参考訳): 入力画像解像度のスケーリングは視覚言語モデル(VLM)の性能向上に不可欠である。
しかし、ViTのような一般的なビジュアルエンコーダは、大量のトークンと、積み重ねられた自己保持層によって引き起こされる高いエンコード遅延により、高解像度で非効率になる。
異なる運用解像度では、VLMのビジョンエンコーダを2つの軸に沿って最適化することができる。
本稿では,画像解像度,視覚遅延,トークン数,LLMサイズ間の相互作用の包括的効率解析に基づいて,レイテンシ,モデルサイズ,精度のトレードオフを最適化したモデルであるFastVLMを紹介する。
FastVLMは、より少ないトークンを出力し、高解像度画像の符号化時間を著しく短縮するように設計された、新しいハイブリッドビジョンエンコーダであるFastViTHDを組み込んでいる。
従来の手法とは異なり、FastVLMは入力画像をスケーリングするだけで視覚トークンカウントと画像解像度の最適バランスを達成し、追加のトークンプルーニングを不要にし、モデル設計を単純化する。
LLaVA-1.5 のセットアップでは、FastVLM は TTFT (Time-to-first-token) の3.2$\times$の改善を達成し、VLM ベンチマークでは以前の作業と比べて同様の性能を維持している。
最高解像度(1152$\times$1152)のLLaVa-OneVisionと比較して、FastVLMは同じ0.5B LLMを使用してSeedBenchやMMMUのような主要なベンチマークで同等のパフォーマンスを達成しているが、85$\times$ faster TTFTと3.4$\times$ smallである。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images [119.24323184581974]
LLaVA-UHDは,任意のアスペクト比と高解像度の画像を効率的に知覚できる大規模マルチモーダルモデルである。
総合的な実験の結果、LLaVA-UHDは9つのベンチマークで2~3桁のデータで訓練されたLMMよりも優れていた。
論文 参考訳(メタデータ) (2024-03-18T12:04:11Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Vision-Language Models Learn Super Images for Efficient Partially
Relevant Video Retrieval [2.303098021872002]
本稿では,部分的関連ビデオ検索のための効率的かつ高性能な手法を提案する。
入力テキストクエリに関連する少なくとも1つのモーメントを含む長いビデオを取得することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T08:38:27Z) - MiniVLM: A Smaller and Faster Vision-Language Model [76.35880443015493]
MiniVLMは視覚特徴抽出器と視覚言語融合モジュールの2つのモジュールで構成されている。
MiniVLMはモデルサイズを73%$、推論時間コストを94%$に削減する。
論文 参考訳(メタデータ) (2020-12-13T03:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。