論文の概要: Mitigating Information Loss under High Pruning Rates for Efficient Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2508.01236v1
- Date: Sat, 02 Aug 2025 07:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.777391
- Title: Mitigating Information Loss under High Pruning Rates for Efficient Large Vision Language Models
- Title(参考訳): 効率的な大規模視覚言語モデルのための高プルーニングレートによる情報損失の軽減
- Authors: Mingyu Fu, Wei Suo, Ji Ma, Lin Yuanbo Wu, Peng Wang, Yanning Zhang,
- Abstract要約: LVLMの計算コストは主に数百から数千のトークンからなる入力の視覚的シーケンスに由来する。
本稿では,画像キャプションによる視覚情報損失を効果的に軽減する適応コンテンツ補償法を提案する。
我々は7つのベンチマークで広範囲に実験を行い、その結果、ACCMはFLOPの低い既存手法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 39.9051851921671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great success of Large Vision Language Models (LVLMs), their high computational cost severely limits their broad applications. The computational cost of LVLMs mainly stems from the visual sequence of the input, which consists of hundreds or even thousands of tokens. Although existing methods have made progress by removing redundant tokens, they suffer from severe performance degradation with high pruning rates due to the loss of visual information. In this paper, we propose an Adaptive Content Compensation Method (ACCM), which can effectively mitigate the visual information loss via an image caption. Specifically, ACCM comprises two key components: a lightweight caption model and a selector. Firstly the caption model generates question-related descriptions under the guidance of the user instruction. Then the selector further identifies a contextually appropriate caption from multiple candidates. Leveraging self-supervised learning, our modules could be learned efficiently without any human or automated labeling. We conduct extensive experiments across seven benchmarks and the results show that ACCM significantly outperforms existing methods with lower FLOPs (e.g., surpassing SOTA by 20.6% with 6.5% fewer FLOPs).
- Abstract(参考訳): LVLM(Large Vision Language Models)の成功にもかかわらず、その高い計算コストは幅広い応用を著しく制限している。
LVLMの計算コストは主に数百から数千のトークンからなる入力の視覚的シーケンスに由来する。
既存の手法は冗長なトークンを除去することで進歩してきたが、視覚情報の欠落により、高いプルーニング率で性能劣化に悩まされている。
本稿では,画像キャプションによる視覚情報損失を効果的に軽減する適応的コンテンツ補償法(ACCM)を提案する。
具体的には、ACCMは軽量キャプションモデルとセレクタの2つのキーコンポーネントから構成される。
まず、キャプションモデルは、ユーザ指導の指導のもと、質問関連記述を生成する。
そして、セレクタは、複数の候補から文脈的に適切なキャプションを更に特定する。
自己教師付き学習を活用することで、モジュールは人間や自動ラベリングなしで効率的に学習できるようになりました。
我々は7つのベンチマークで広範な実験を行い、ACCMはFLOPが低い既存手法よりも大幅に優れていることを示した(例:SOTAを20.6%上回り、FLOPが6.5%少ない)。
関連論文リスト
- Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。
提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation [10.614327633823462]
大規模視覚言語モデル(LVLM)は、推論セグメンテーションタスクの実行において視覚基盤モデルを導くために広く採用されている。
本研究では,LVLMに基づく推論セグメンテーションタスクに特化して設計された,新しい学習自由な視覚トークンプルーニング手法であるLVLM_CSPを提案する。
論文 参考訳(メタデータ) (2025-04-15T04:27:15Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。