論文の概要: MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2410.11829v1
- Date: Tue, 15 Oct 2024 17:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:01.377094
- Title: MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding
- Title(参考訳): MMFuser:細粒度視覚言語理解のためのマルチモーダル多層特徴フィルタ
- Authors: Yue Cao, Yangzhou Liu, Zhe Chen, Guangchen Shi, Wenhai Wang, Danhuai Zhao, Tong Lu,
- Abstract要約: 視覚変換器(ViTs)の深部・浅部機能を効率的に統合する,シンプルで効果的な多層機能フェーザであるモデル名を提案する。
具体的には、クエリとしてセマンティックに整合した深い機能を活用して、浅い機能から欠落した詳細を動的に抽出する。
modelnameachieveは、ビジュアル表現とベンチマークのパフォーマンスを大幅に改善する。
- 参考スコア(独自算出の注目度): 39.68348330596116
- License:
- Abstract: Despite significant advancements in Multimodal Large Language Models (MLLMs) for understanding complex human intentions through cross-modal interactions, capturing intricate image details remains challenging. Previous methods integrating multiple vision encoders to enhance visual detail introduce redundancy and computational overhead. We observe that most MLLMs utilize only the last-layer feature map of the vision encoder for visual representation, neglecting the rich fine-grained information in shallow feature maps. To address this issue, we propose \modelname, a simple yet effective multi-layer feature fuser that efficiently integrates deep and shallow features from Vision Transformers (ViTs). Specifically, it leverages semantically aligned deep features as queries to dynamically extract missing details from shallow features, thus preserving semantic alignment while enriching the representation with fine-grained information. Applied to the LLaVA-1.5 model, \modelname~achieves significant improvements in visual representation and benchmark performance, providing a more flexible and lightweight solution compared to multi-encoder ensemble methods. The code and model have been released at https://github.com/yuecao0119/MMFuser.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、相互モーダルな相互作用を通じて複雑な人間の意図を理解するために大幅に進歩しているが、複雑な画像の詳細を捉えることは依然として困難である。
視覚的ディテールを高めるために複数の視覚エンコーダを統合する従来手法では、冗長性と計算オーバーヘッドが導入されていた。
我々は,ほとんどのMLLMが視覚表現のために視覚エンコーダの最終層の特徴マップのみを使用しており,浅い特徴写像の豊富な微細な情報を無視していることを観察する。
この問題に対処するために,視覚変換器(ViTs)の深部・浅部機能を効率的に統合する,シンプルで効果的な多層機能フェーザである \modelname を提案する。
具体的には、セマンティックアライメントされた深い特徴をクエリとして利用し、浅い特徴から欠落した詳細を動的に抽出し、セマンティックアライメントを保持しながら、表現をきめ細かい情報で強化する。
LLaVA-1.5モデルに適用された \modelname~achieve は、視覚表現とベンチマーク性能を大幅に改善し、マルチエンコーダアンサンブル法よりも柔軟で軽量なソリューションを提供する。
コードとモデルはhttps://github.com/yuecao0119/MMFuser.comでリリースされた。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - PerspectiveNet: Multi-View Perception for Dynamic Scene Understanding [1.2781698000674653]
PerspectiveNetは、複数のカメラビューにわたる長い記述を生成するための軽量モデルである。
提案手法では,視覚エンコーダ,コンパクトコネクタモジュール,および大規模言語モデルを用いる。
結果として得られるモデルは軽量で、効率的なトレーニングと推論を確実にします。
論文 参考訳(メタデータ) (2024-10-22T08:57:17Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning [44.497776004372724]
MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。
MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。
さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
論文 参考訳(メタデータ) (2024-06-25T17:55:11Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。