Fugu-MT 論文翻訳(概要): Inference Optimal VLMs Need Only One Visual Token but Larger Models

論文の概要: Inference Optimal VLMs Need Only One Visual Token but Larger Models

arxiv url: http://arxiv.org/abs/2411.03312v1
Date: Tue, 05 Nov 2024 18:54:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.706104
Title: Inference Optimal VLMs Need Only One Visual Token but Larger Models
Title（参考訳）: 推論最適VLMは1つの視覚トークンのみを必要とするが、より大きいモデルを必要とする
Authors: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter,
Abstract要約: 視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
参考スコア（独自算出の注目度）: 54.01228554126122
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Language Models (VLMs) have demonstrated strong capabilities across various visual understanding and reasoning tasks. However, their real-world deployment is often constrained by high latency during inference due to substantial compute required to process the large number of input tokens (predominantly from the image) by the LLM. To reduce inference costs, one can either downsize the LLM or reduce the number of input image-tokens, the latter of which has been the focus of many recent works around token compression. However, it is unclear what the optimal trade-off is, as both the factors directly affect the VLM performance. We first characterize this optimal trade-off between the number of visual tokens and LLM parameters by establishing scaling laws that capture variations in performance with these two factors. Our results reveal a surprising trend: for visual reasoning tasks, the inference-optimal behavior in VLMs, i.e., minimum downstream error at any given fixed inference compute, is achieved when using the largest LLM that fits within the inference budget while minimizing visual token count - often to a single token. While the token reduction literature has mainly focused on maintaining base model performance by modestly reducing the token count (e.g., $5-10\times$), our results indicate that the compute-optimal inference regime requires operating under even higher token compression ratios. Based on these insights, we take some initial steps towards building approaches tailored for high token compression settings. Code is available at https://github.com/locuslab/llava-token-compression.
Abstract（参考訳）: 視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。しかし、LLMによって大量の入力トークン(画像から優先的に)を処理するのに必要な計算量が多いため、実際のデプロイメントは推論中に高いレイテンシによって制限されることが多い。推論コストを削減するため、LLMを縮小するか、入力画像トークンの数を削減できるが、後者はトークン圧縮に関する最近の多くの研究の焦点となっている。しかしながら、両者が直接VLM性能に影響を与えるため、最適なトレードオフは何かは不明である。まず、これらの2つの要因による性能の変動を捉えたスケーリング法則を確立することにより、視覚トークン数とLCMパラメータ間の最適なトレードオフを特徴付ける。視覚的推論タスクの場合、VLMの最小ダウンストリームエラー(すなわち任意の固定された推論計算における最小ダウンストリームエラー)は、視覚的トークンカウントを最小化しながら、推論予算内に収まる最大のLCMを使用することで達成される。トークン削減の文献は主に、トークン数(例:5-10\times$)を緩やかに削減することによるベースモデル性能の維持に重点を置いているが、この結果から、より高いトークン圧縮比下での演算を必要とすることが示唆されている。これらの知見に基づき、高いトークン圧縮設定に適したアプローチを構築するための最初の一歩を踏み出した。コードはhttps://github.com/locuslab/llava-token-compressionで公開されている。

関連論文リスト

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:55Z)
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms [16.41418610688371]
性能劣化を最小限に抑えた視覚トークン量を大幅に削減するCrossLMMを提案する。また,テキスト・ツー・ビジュアル・クロスアテンション機構を導入し,テキスト・トークンを元のビジュアル・トークンとのインタラクションによって拡張する。提案手法は,多様なビデオベース大規模言語モデルベンチマークにおいて,同等あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2025-05-22T17:59:53Z)
LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation [10.614327633823462]
大規模視覚言語モデル(LVLM)は、推論セグメンテーションタスクの実行において視覚基盤モデルを導くために広く採用されている。本研究では,LVLMに基づく推論セグメンテーションタスクに特化して設計された,新しい学習自由な視覚トークンプルーニング手法であるLVLM_CSPを提案する。
論文参考訳（メタデータ） (2025-04-15T04:27:15Z)
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文参考訳（メタデータ） (2025-03-24T01:47:26Z)
Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
[CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-12-08T05:29:39Z)
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。 i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文参考訳（メタデータ） (2024-12-04T13:56:44Z)
Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文参考訳（メタデータ） (2024-11-30T18:54:32Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文参考訳（メタデータ） (2024-10-08T16:13:24Z)
Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。 MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-07-02T16:10:55Z)
VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。 LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文参考訳（メタデータ） (2024-06-18T05:05:12Z)
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文参考訳（メタデータ） (2024-05-09T14:38:53Z)
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文参考訳（メタデータ） (2024-03-22T17:59:52Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。 IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文参考訳（メタデータ） (2024-03-02T16:05:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。