論文の概要: Vision Remember: Alleviating Visual Forgetting in Efficient MLLM with Vision Feature Resample
- arxiv url: http://arxiv.org/abs/2506.03928v1
- Date: Wed, 04 Jun 2025 13:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.348521
- Title: Vision Remember: Alleviating Visual Forgetting in Efficient MLLM with Vision Feature Resample
- Title(参考訳): ビジョンを思い出す - 視覚機能リサンプリングによる効率的なMLLMでのビジュアルフォーミングの軽減
- Authors: Ze Feng, Jiang-Jiang Liu, Sen Yang, Lingyu Xiao, Xiaofan Li, Wankou Yang, Jingdong Wang,
- Abstract要約: 冗長な視覚トークンは膨大な量の計算メモリとリソースを消費する。
本研究では,LLMデコーダ層間に挿入され,視覚トークンが視覚機能を再記憶できるようにするビジョンリマインダを提案する。
再サンプリングの過程では、各視覚トークンは視覚特徴の局所的な領域にのみ参加する。
- 参考スコア(独自算出の注目度): 30.263537686102016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the Efficient Multimodal Large Language Model. Redundant vision tokens consume a significant amount of computational memory and resources. Therefore, many previous works compress them in the Vision Projector to reduce the number of vision tokens. However, simply compressing in the Vision Projector can lead to the loss of visual information, especially for tasks that rely on fine-grained spatial relationships, such as OCR and Chart \& Table Understanding. To address this problem, we propose Vision Remember, which is inserted between the LLM decoder layers to allow vision tokens to re-memorize vision features. Specifically, we retain multi-level vision features and resample them with the vision tokens that have interacted with the text token. During the resampling process, each vision token only attends to a local region in vision features, which is referred to as saliency-enhancing local attention. Saliency-enhancing local attention not only improves computational efficiency but also captures more fine-grained contextual information and spatial relationships within the region. Comprehensive experiments on multiple visual understanding benchmarks validate the effectiveness of our method when combined with various Efficient Vision Projectors, showing performance gains without sacrificing efficiency. Based on Vision Remember, LLaVA-VR with only 2B parameters is also superior to previous representative MLLMs such as Tokenpacker-HD-7B and DeepSeek-VL-7B.
- Abstract(参考訳): 本研究では,効率的なマルチモーダル大言語モデルについて検討する。
冗長な視覚トークンは膨大な量の計算メモリとリソースを消費する。
したがって、以前の多くの研究はビジョンプロジェクターでそれらを圧縮し、視覚トークンの数を減らした。
しかし、ビジョンプロジェクターで単に圧縮すると視覚情報が失われ、特にOCRやチャート・テーブル理解のような細かな空間的関係に依存するタスクが失われる。
この問題に対処するため,LLMデコーダ層間を挿入して視覚トークンが視覚機能を再記憶できるようにVision Rememberを提案する。
具体的には、マルチレベル視覚機能を保持し、テキストトークンと相互作用した視覚トークンでそれらを再サンプリングする。
再サンプリングの過程では、各視覚トークンは視覚特徴の局所的な領域にのみ参加する。
局所的な注意力を高めることで、計算効率が向上するだけでなく、よりきめ細かい文脈情報や領域内の空間的関係も得られる。
複数の視覚的理解ベンチマークに関する総合的な実験は、様々な高能率ビジョンプロジェクタと組み合わせることで、効率を犠牲にすることなく、性能向上を示す。
Vision Rememberによると、2Bパラメータしか持たないLLaVA-VRは、Tokenpacker-HD-7BやDeepSeek-VL-7Bといった従来のMLLMよりも優れている。
関連論文リスト
- Introducing Visual Perception Token into Multimodal Large Language Model [53.82301522384719]
MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。
MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。
本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:56:12Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation [10.468784974994465]
マルチモーダル言語モデル(MLLM)におけるプロジェクタの役割
プロジェクタに関する現在の調査では、効率を改善するために視覚トークンの数を減らすことに重点を置いている。
この問題に対処するために空間認識効率プロジェクタ(SAEP)を提案する。
論文 参考訳(メタデータ) (2024-10-14T09:25:09Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。