論文の概要: EMMA: Efficient Visual Alignment in Multi-Modal LLMs
- arxiv url: http://arxiv.org/abs/2410.02080v1
- Date: Wed, 2 Oct 2024 23:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:05:40.817230
- Title: EMMA: Efficient Visual Alignment in Multi-Modal LLMs
- Title(参考訳): EMMA:マルチモードLCMにおける効率的な視覚アライメント
- Authors: Sara Ghazanfari, Alexandre Araujo, Prashanth Krishnamurthy, Siddharth Garg, Farshad Khorrami,
- Abstract要約: EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 56.03417732498859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have recently exhibited impressive general-purpose capabilities by leveraging vision foundation models to encode the core concepts of images into representations. These are then combined with instructions and processed by the language model to generate high-quality responses. Despite significant progress in enhancing the language component, challenges persist in optimally fusing visual encodings within the language model for task-specific adaptability. Recent research has focused on improving this fusion through modality adaptation modules but at the cost of significantly increased model complexity and training data needs. In this paper, we propose EMMA (Efficient Multi-Modal Adaptation), a lightweight cross-modality module designed to efficiently fuse visual and textual encodings, generating instruction-aware visual representations for the language model. Our key contributions include: (1) an efficient early fusion mechanism that integrates vision and language representations with minimal added parameters (less than 0.2% increase in model size), (2) an in-depth interpretability analysis that sheds light on the internal mechanisms of the proposed method; (3) comprehensive experiments that demonstrate notable improvements on both specialized and general benchmarks for MLLMs. Empirical results show that EMMA boosts performance across multiple tasks by up to 9.3% while significantly improving robustness against hallucinations. Our code is available at https://github.com/SaraGhazanfari/EMMA
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、視覚基盤モデルを利用して画像の中核となる概念を表現にエンコードすることで、目覚しい汎用性を示した。
これらは命令と組み合わせて、言語モデルによって処理され、高品質な応答を生成する。
言語コンポーネントの大幅な進歩にもかかわらず、タスク固有の適応性のために、言語モデル内で視覚的エンコーディングを最適に融合させることが課題である。
近年の研究では、モダリティ適応モジュールによる融合の改善に焦点が当てられているが、モデルの複雑さを大幅に増加させ、データニーズをトレーニングするコストが掛かっている。
本稿では,視覚的およびテキスト的エンコーディングを効率的に融合し,言語モデルのための命令対応視覚表現を生成する軽量な多モードモジュールEMMA(Efficient Multi-Modal Adaptation)を提案する。
本研究の主な貢献は,(1) 視覚と言語表現を最小限の追加パラメータ(モデルサイズが0.2%増加しない)と統合する効率的な早期融合機構,(2) 提案手法の内部メカニズムに光を当てる詳細な解釈可能性分析,(3) MLLMの特殊ベンチマークと一般ベンチマークの両方において顕著な改善を示す総合的な実験である。
実験の結果、EMMAは幻覚に対する堅牢性を著しく改善しつつ、複数のタスクにわたるパフォーマンスを最大9.3%向上させることが示された。
私たちのコードはhttps://github.com/SaraGhazanfari/EMMAで利用可能です。
関連論文リスト
- Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
マルチモーダル理解と生成のための離散言語を通して、統一視覚言語モデルセマンティックであるMUSE-VLを紹介する。
提案手法は,様々な視覚言語ベンチマークにおいて,従来の最先端モデルを大幅に上回り,専用の理解モデルよりも優れた性能を実現している。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - MammothModa: Multi-Modal Large Language Model [17.98445238232718]
MammothModaは、Multi-modal large language model(MLLM)である。
MammothModaは、例えばLLaVAシリーズのような最先端のモデルを、ベルやホイッスルのない主要な実世界のビジュアル言語ベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2024-06-26T09:17:27Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter [21.45490901191175]
PaLM2-VAdapterは、視覚言語アダプタとして徐々に整列した言語モデルを採用している。
提案手法は、最先端の大規模視覚言語モデルよりも3070%少ないパラメータでこれらの進歩を実現する。
論文 参考訳(メタデータ) (2024-02-16T18:54:47Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。