論文の概要: Learning Compact Vision Tokens for Efficient Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.07138v1
- Date: Sun, 08 Jun 2025 13:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.686622
- Title: Learning Compact Vision Tokens for Efficient Large Multimodal Models
- Title(参考訳): 効率的な大規模マルチモーダルモデルのためのコンパクトビジョントークンの学習
- Authors: Hao Tang, Chengchao Shen,
- Abstract要約: 本稿では,短時間の視覚トークンシーケンスに対して,コンパクトな視覚トークンを学習する手法を提案する。
また,マルチブロックトークン融合 (MBTF) モジュールを導入し,トークン列の低減のために多粒度機能を補う。
提案手法は,8つの人気視線ベンチマークのベースラインに匹敵する,あるいはさらに優れた性能を達成している。
- 参考スコア(独自算出の注目度): 11.212952256422609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large multimodal models (LMMs) suffer significant computational challenges due to the high cost of Large Language Models (LLMs) and the quadratic complexity of processing long vision token sequences. In this paper, we explore the spatial redundancy among vision tokens and shorten the length of vision token sequences for inference acceleration. Specifically, we propose a Spatial Token Fusion (STF) method to learn compact vision tokens for short vision token sequence, where spatial-adjacent tokens are fused into one. Meanwhile, weight-frozen vision encoder can not well adapt to the demand of extensive downstream vision-language tasks. To this end, we further introduce a Multi-Block Token Fusion (MBTF) module to supplement multi-granularity features for the reduced token sequence. Overall, we combine STF and MBTF module to balance token reduction and information preservation, thereby improving inference efficiency without sacrificing multimodal reasoning capabilities. Experimental results demonstrate that our method based on LLaVA-1.5 achieves comparable or even superior performance to the baseline on 8 popular vision-language benchmarks with only $25\%$ vision tokens of baseline. The source code and trained weights are available at https://github.com/visresearch/LLaVA-STF.
- Abstract(参考訳): LMM(Large Multimodal Model)は、LLM(Large Language Models)の高コストと、長期ビジョントークンシーケンス処理の2次複雑さにより、計算上の重大な課題を被る。
本稿では,視覚トークン間の空間的冗長性について検討し,推論高速化のための視覚トークン列の長さを短縮する。
具体的には,空間依存トークンを1つに融合した短い視覚トークン列に対して,コンパクトな視覚トークンを学習するための空間トークン融合(STF)法を提案する。
一方、重量凍結型視覚エンコーダは、広範囲な下流視覚言語タスクの要求に十分に適応できない。
この目的のために, トークン列の削減のために, マルチブロックトークン融合 (MBTF) モジュールを導入する。
全体として、STFとMBTFモジュールを組み合わせてトークンの低減と情報保存をバランスさせ、マルチモーダル推論機能を犠牲にすることなく推論効率を向上させる。
実験の結果,LLaVA-1.5に基づく手法は,ベースラインの25 % のビジョントークンしか持たない8つの人気ビジョン言語ベンチマークにおいて,ベースラインに匹敵する,あるいはさらに優れた性能を達成できることがわかった。
ソースコードとトレーニングされたウェイトはhttps://github.com/visresearch/LLaVA-STF.comで公開されている。
関連論文リスト
- Streamline Without Sacrifice -- Squeeze out Computation Redundancy in LMM [41.796933489107815]
我々は,視覚トークンの計算レベルの冗長性を同定し,情報損失を確実にする。
本稿では,プロキシビジョントークンを用いた新しいアプローチであるProxyVを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:59:52Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。