論文の概要: Recoverable Compression: A Multimodal Vision Token Recovery Mechanism Guided by Text Information
- arxiv url: http://arxiv.org/abs/2409.01179v2
- Date: Wed, 11 Dec 2024 16:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:11.095872
- Title: Recoverable Compression: A Multimodal Vision Token Recovery Mechanism Guided by Text Information
- Title(参考訳): Recoverable Compression: テキスト情報によるマルチモーダルビジョントークン復元機構
- Authors: Yi Chen, Jian Xu, Xu-Yao Zhang, Wen-Zhuo Liu, Yang-Yang Liu, Cheng-Lin Liu,
- Abstract要約: トレーニングを必要としないテキスト情報誘導動的視覚トークン回復機構を提案する。
提案手法は,視覚トークンを平均10%まで圧縮しながら,従来の手法に匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 41.50379737105869
- License:
- Abstract: With the advancement of large-scale language modeling techniques, large multimodal models combining visual encoders with large language models have demonstrated exceptional performance in various visual tasks. Most of the current large-scale multimodal models achieve this by mapping visual features obtained from the visual encoder into a large language model and using them as inputs alongside text for downstream tasks. Therefore, the number of visual tokens directly affects the training and inference speed of the model. There has been significant work on token pruning for visual transformers, but for large multimodal models, only relying on visual information for token pruning or compression may lead to significant loss of important information. On the other hand, the textual input in the form of a question may contain valuable information that can aid in answering the question, providing additional knowledge to the model. To address the potential oversimplification and excessive pruning that can occur with most purely visual token pruning methods, we propose a text information-guided dynamic visual token recovery mechanism that does not require training. This mechanism leverages the similarity between the question text and visual tokens to recover visually meaningful tokens with important text information while merging other less important tokens. Experimental results demonstrate that our proposed method achieves comparable performance to the original approach while compressing the visual tokens to an average of 10% of the original quantity. Our source code will be made publicly available following acceptance.
- Abstract(参考訳): 大規模言語モデリング技術の進歩により、視覚エンコーダと大規模言語モデルを組み合わせた大規模マルチモーダルモデルは、様々な視覚的タスクにおいて例外的な性能を示した。
現在の大規模マルチモーダルモデルのほとんどは、ビジュアルエンコーダから得られた視覚的特徴を大きな言語モデルにマッピングし、下流タスクのテキストと並行して入力として使用することでこれを実現している。
したがって、視覚トークンの数はモデルのトレーニングと推論速度に直接影響を与える。
しかし、大規模なマルチモーダルモデルでは、トークンのプルーニングや圧縮に視覚情報に頼るだけで重要な情報が失われる可能性がある。
一方、質問の形式でのテキスト入力には、質問に答えるのに役立つ貴重な情報が含まれており、モデルにさらなる知識を提供する。
純粋に視覚的トークンプルーニング法で起こりうる潜在的な単純化と過剰なプルーニングに対処するために,テキスト情報を用いた動的視覚的トークン回復機構を提案する。
このメカニズムは、質問テキストと視覚トークンの類似性を利用して、重要なテキスト情報で視覚的に意味のあるトークンを回収し、他の重要でないトークンをマージする。
実験により,提案手法は,視覚トークンを平均10%まで圧縮しながら,従来の手法に匹敵する性能を示した。
私たちのソースコードは受理後、公開されます。
関連論文リスト
- Improving Multi-modal Large Language Model through Boosting Vision Capabilities [54.344077285545005]
視覚言語モデルを強化するための視覚理解能力の改善に注力する。
マルチモーダル言語モデルである textbfArcana を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:36:38Z) - MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding [39.68348330596116]
視覚変換器(ViTs)の深部・浅部機能を効率的に統合する,シンプルで効果的な多層機能フェーザであるモデル名を提案する。
具体的には、クエリとしてセマンティックに整合した深い機能を活用して、浅い機能から欠落した詳細を動的に抽出する。
modelnameachieveは、ビジュアル表現とベンチマークのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-15T17:55:22Z) - From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.108694010274988]
本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
本手法は,テキストのみの大規模言語モデルで使用されるトークン化戦略を反映して,構造的事前情報を画像トークンに直接組み込む。
論文 参考訳(メタデータ) (2024-10-03T02:34:31Z) - Visual Grounding with Multi-modal Conditional Adaptation [14.177510695317098]
ビジュアルグラウンド(Visual Grounding)は、自然言語で指定されたオブジェクトを特定するタスクである。
重みを適応的に更新できるマルチモーダル条件適応(MMCA)を導入する。
MMCAは、大幅な改善と最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-09-08T07:08:58Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。