論文の概要: FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers
- arxiv url: http://arxiv.org/abs/2501.16297v1
- Date: Mon, 27 Jan 2025 18:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:07.975733
- Title: FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers
- Title(参考訳): FALCON: ビジュアルレジスタによる高解像度マルチモーダル大言語モデルにおける視覚冗長性とフラグメンテーションの解消
- Authors: Renshan Zhang, Rui Shao, Gongwei Chen, Kaiwen Zhou, Weili Guan, Liqiang Nie,
- Abstract要約: 高解像度視覚入力はマルチモーダル大言語モデル (MLLM) と実世界のタスクに対する視覚知覚能力の強化を兼ね備えている。
既存の高解像度MLLMの多くは、画像を処理するためのトリミングベースのアプローチに依存しており、断片化された視覚符号化と冗長トークンの急激な増加につながっている。
FALCONは、ビジュアルエンコーディングの段階で冗長トークンを同時に除去する新しいビジュアルレジスタ技術を導入した。
FALCONは、目覚しい9倍、16倍の視覚トークンで優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 59.325141146786805
- License:
- Abstract: The incorporation of high-resolution visual input equips multimodal large language models (MLLMs) with enhanced visual perception capabilities for real-world tasks. However, most existing high-resolution MLLMs rely on a cropping-based approach to process images, which leads to fragmented visual encoding and a sharp increase in redundant tokens. To tackle these issues, we propose the FALCON model. FALCON introduces a novel visual register technique to simultaneously: 1) Eliminate redundant tokens at the stage of visual encoding. To directly address the visual redundancy present in the output of vision encoder, we propose a Register-based Representation Compacting (ReCompact) mechanism. This mechanism introduces a set of learnable visual registers designed to adaptively aggregate essential information while discarding redundancy. It enables the encoder to produce a more compact visual representation with a minimal number of output tokens, thus eliminating the need for an additional compression module. 2) Ensure continuity in visual encoding. To address the potential encoding errors caused by fragmented visual inputs, we develop a Register Interactive Attention (ReAtten) module. This module facilitates effective and efficient information exchange across sub-images by enabling interactions between visual registers. It ensures the continuity of visual semantics throughout the encoding. We conduct comprehensive experiments with FALCON on high-resolution benchmarks across a wide range of scenarios. FALCON demonstrates superior performance with a remarkable 9-fold and 16-fold reduction in visual tokens.
- Abstract(参考訳): 高精細な視覚入力はマルチモーダルな大言語モデル(MLLM)を具現化し、実世界のタスクに対する視覚知覚能力を増強する。
しかし、既存のほとんどの高解像度MLLMは、画像を処理するためのトリミングベースのアプローチに依存しており、断片化された視覚符号化と冗長トークンの急激な増加につながっている。
これらの問題に対処するため、我々はFALCONモデルを提案する。
FALCONは、新しいビジュアルレジスタ技術を同時に導入する。
1)視覚的符号化の段階で冗長トークンを除去する。
本稿では,視覚エンコーダの出力に存在する視覚的冗長性に直接対処するため,レジスタベースのRepresentation Compacting(ReCompact)機構を提案する。
このメカニズムは、冗長性を捨てながら必須情報を適応的に集約するように設計された学習可能なビジュアルレジスタのセットを導入する。
これにより、エンコーダは最小限の出力トークンでよりコンパクトな視覚表現を生成できるため、追加の圧縮モジュールを必要としない。
2)視覚符号化における連続性を確保する。
視覚入力の断片化による潜在的な符号化エラーに対処するため,Re Register Interactive Attention (ReAtten) モジュールを開発した。
このモジュールは、視覚レジスタ間の相互作用を可能にすることにより、サブイメージ間の効率的な情報交換を容易にする。
エンコーディング全体を通して視覚的意味論の連続性を保証する。
幅広いシナリオにわたる高解像度のベンチマークにおいて、FALCONで包括的な実験を行う。
FALCONは、目覚しい9倍、16倍の視覚トークンで優れたパフォーマンスを示す。
関連論文リスト
- FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - Improving Multi-modal Large Language Model through Boosting Vision Capabilities [54.344077285545005]
視覚言語モデルを強化するための視覚理解能力の改善に注力する。
マルチモーダル言語モデルである textbfArcana を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:36:38Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。