論文の概要: Streamline Without Sacrifice -- Squeeze out Computation Redundancy in LMM
- arxiv url: http://arxiv.org/abs/2505.15816v1
- Date: Wed, 21 May 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.831575
- Title: Streamline Without Sacrifice -- Squeeze out Computation Redundancy in LMM
- Title(参考訳): 犠牲のないストリーミング - LMMの計算冗長性を探る
- Authors: Penghao Wu, Lewei Lu, Ziwei Liu,
- Abstract要約: 我々は,視覚トークンの計算レベルの冗長性を同定し,情報損失を確実にする。
本稿では,プロキシビジョントークンを用いた新しいアプローチであるProxyVを提案する。
- 参考スコア(独自算出の注目度): 41.796933489107815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models excel in multimodal tasks but face significant computational challenges due to excessive computation on visual tokens. Unlike token reduction methods that focus on token-level redundancy, we identify and study the computation-level redundancy on vision tokens to ensure no information loss. Our key insight is that vision tokens from the pretrained vision encoder do not necessarily require all the heavy operations (e.g., self-attention, FFNs) in decoder-only LMMs and could be processed more lightly with proper designs. We designed a series of experiments to discover and progressively squeeze out the vision-related computation redundancy. Based on our findings, we propose ProxyV, a novel approach that utilizes proxy vision tokens to alleviate the computational burden on original vision tokens. ProxyV enhances efficiency without compromising performance and can even yield notable performance gains in scenarios with more moderate efficiency improvements. Furthermore, the flexibility of ProxyV is demonstrated through its combination with token reduction methods to boost efficiency further. The code will be made public at this https://github.com/penghao-wu/ProxyV URL.
- Abstract(参考訳): 大規模なマルチモーダルモデルは、マルチモーダルなタスクでは優れているが、視覚トークンの過剰な計算のため、重大な計算課題に直面している。
トークンレベルの冗長性に着目したトークン削減手法とは異なり、視覚トークン上での計算レベルの冗長性を特定し、検討し、情報損失を確実にする。
我々の重要な洞察は、事前訓練された視覚エンコーダからの視覚トークンは、デコーダのみのLMMにおいて、必ずしも重い操作(例えば、自己注意、FFN)を必要とせず、適切な設計でより軽量に処理できるということである。
我々は、視覚関連計算冗長性を発見し、徐々に絞り出す一連の実験を設計した。
本稿では,プロキシビジョントークンを用いた新しい手法であるProxyVを提案する。
ProxyVは性能を損なうことなく効率を向上し、より適度な効率改善のシナリオで顕著なパフォーマンス向上を得ることができる。
さらに、ProxyVの柔軟性をトークン還元法と組み合わせて示し、効率をさらに向上させる。
コードは、https://github.com/penghao-wu/ProxyV URLで公開される。
関連論文リスト
- Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。