論文の概要: EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2408.11795v1
- Date: Wed, 21 Aug 2024 17:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 15:58:35.824486
- Title: EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model
- Title(参考訳): EE-MLLM: マルチモーダル大規模言語モデル
- Authors: Feipeng Ma, Yizhou Zhou, Hebei Li, Zilong He, Siying Wu, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun,
- Abstract要約: データ効率・計算効率・マルチモーダル大言語モデル(EE-MLLM)について紹介する。
EE-MLLMは、追加モジュールや学習可能なパラメータを導入することなく、データと計算効率の両方を達成する。
実験により,EE-MLLMのベンチマークにおける有効性を示した。
- 参考スコア(独自算出の注目度): 14.767055057048855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of multimodal research, numerous studies leverage substantial image-text pairs to conduct modal alignment learning, transforming Large Language Models (LLMs) into Multimodal LLMs and excelling in a variety of visual-language tasks. The prevailing methodologies primarily fall into two categories: self-attention-based and cross-attention-based methods. While self-attention-based methods offer superior data efficiency due to their simple MLP architecture, they often suffer from lower computational efficiency due to concatenating visual and textual tokens as input for LLM. Conversely, cross-attention-based methods, although less data-efficient due to additional learnable parameters, exhibit higher computational efficiency by avoiding long sequence input for LLM. To address these trade-offs, we introduce the Data-Efficient and Compute-Efficient Multimodal Large Language Model (EE-MLLM). Without introducing additional modules or learnable parameters, EE-MLLM achieves both data and compute efficiency. Specifically, we modify the original self-attention mechanism in MLLM to a composite attention mechanism. This mechanism has two key characteristics: 1) Eliminating the computational overhead of self-attention within visual tokens to achieve compute efficiency, and 2) Reusing the weights on each layer of LLM to facilitate effective modality alignment between vision and language for data efficiency. Experimental results demonstrate the effectiveness of EE-MLLM across a range of benchmarks, including general-purpose datasets like MMBench and SeedBench, as well as fine-grained tasks such as TextVQA and DocVQA.
- Abstract(参考訳): マルチモーダル研究の領域では、多数の研究が画像とテキストのペアを活用してモーダルアライメント学習を行い、大規模言語モデル(LLM)を多モーダルLLMに変換し、様々な視覚的タスクに優れる。
一般的な手法は、主に自己注意に基づく方法と相互注意に基づく方法の2つのカテゴリに分類される。
自己注意に基づく手法は、単純なMLPアーキテクチャのためデータ効率が優れているが、視覚トークンとテキストトークンをLLMの入力として結合することにより、計算効率が低下することが多い。
逆に、クロスアテンションに基づく手法は、追加の学習可能なパラメータによるデータ効率は低いが、LLMの長いシーケンス入力を回避して高い計算効率を示す。
これらのトレードオフに対処するため,データ効率・計算効率・マルチモーダル大言語モデル(EE-MLLM)を提案する。
追加のモジュールや学習可能なパラメータを導入することなく、EE-MLLMはデータと計算効率の両方を達成する。
具体的には,MLLMの自己注意機構を複合注意機構に変更する。
このメカニズムには2つの重要な特徴がある。
1)視覚トークン内の自己注意の計算オーバーヘッドを排除し、計算効率を向上させる。
2) LLMの各層上の重みを再利用し, 視覚と言語間の効果的なモダリティアライメントを容易にし, データ効率を向上させる。
実験結果は、MMBenchやSeedBenchといった汎用データセットや、TextVQAやDocVQAといったきめ細かいタスクを含む、さまざまなベンチマークにおけるEE-MLLMの有効性を示す。
関連論文リスト
- Large language models enabled multiagent ensemble method for efficient EHR data labeling [9.481473827205159]
本研究では,MLにおける重要な課題であるデータラベリングに対処するため,LLMを用いた新しいマルチエージェントアンサンブル手法を提案する。
アンサンブルLLMと自然言語処理を用いて、推定精度98.2%の623,566ECGのMIMIC-IV ECGデータセットをラベル付けした。
我々は,1,405EHR臨床ノートの社会史セクションからSDOHを同定するために,アンサンブルLLMs法を適用し,競争性能も向上した。
論文 参考訳(メタデータ) (2024-10-21T22:12:00Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。