Fugu-MT 論文翻訳(概要): EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model

論文の概要: EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model

arxiv url: http://arxiv.org/abs/2408.11795v2
Date: Mon, 9 Sep 2024 18:57:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 22:32:06.006789
Title: EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model
Title（参考訳）: EE-MLLM: マルチモーダル大規模言語モデル
Authors: Feipeng Ma, Yizhou Zhou, Hebei Li, Zilong He, Siying Wu, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun,
Abstract要約: データ効率・計算効率・マルチモーダル大言語モデル(EE-MLLM)について紹介する。 EE-MLLMは、追加モジュールや学習可能なパラメータを導入することなく、データと計算効率の両方を達成する。実験により,EE-MLLMのベンチマークにおける有効性を示した。
参考スコア（独自算出の注目度）: 14.767055057048855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the realm of multimodal research, numerous studies leverage substantial image-text pairs to conduct modal alignment learning, transforming Large Language Models (LLMs) into Multimodal LLMs and excelling in a variety of visual-language tasks. The prevailing methodologies primarily fall into two categories: self-attention-based and cross-attention-based methods. While self-attention-based methods offer superior data efficiency due to their simple MLP architecture, they often suffer from lower computational efficiency due to concatenating visual and textual tokens as input for LLM. Conversely, cross-attention-based methods, although less data-efficient due to additional learnable parameters, exhibit higher computational efficiency by avoiding long sequence input for LLM. To address these trade-offs, we introduce the Data-Efficient and Compute-Efficient Multimodal Large Language Model (EE-MLLM). Without introducing additional modules or learnable parameters, EE-MLLM achieves both data and compute efficiency. Specifically, we modify the original self-attention mechanism in MLLM to a composite attention mechanism. This mechanism has two key characteristics: 1) Eliminating the computational overhead of self-attention within visual tokens to achieve compute efficiency, and 2) Reusing the weights on each layer of LLM to facilitate effective modality alignment between vision and language for data efficiency. Experimental results demonstrate the effectiveness of EE-MLLM across a range of benchmarks, including general-purpose datasets like MMBench and SeedBench, as well as fine-grained tasks such as TextVQA and DocVQA.
Abstract（参考訳）: マルチモーダル研究の領域では、多数の研究が画像とテキストのペアを活用してモーダルアライメント学習を行い、大規模言語モデル(LLM)を多モーダルLLMに変換し、様々な視覚的タスクに優れる。一般的な手法は、主に自己注意に基づく方法と相互注意に基づく方法の2つのカテゴリに分類される。自己注意に基づく手法は、単純なMLPアーキテクチャのためデータ効率が優れているが、視覚トークンとテキストトークンをLLMの入力として結合することにより、計算効率が低下することが多い。逆に、クロスアテンションに基づく手法は、追加の学習可能なパラメータによるデータ効率は低いが、LLMの長いシーケンス入力を回避して高い計算効率を示す。これらのトレードオフに対処するため,データ効率・計算効率・マルチモーダル大言語モデル(EE-MLLM)を提案する。追加のモジュールや学習可能なパラメータを導入することなく、EE-MLLMはデータと計算効率の両方を達成する。具体的には,MLLMの自己注意機構を複合注意機構に変更する。このメカニズムには2つの重要な特徴がある。 1)視覚トークン内の自己注意の計算オーバーヘッドを排除し、計算効率を向上させる。 2) LLMの各層上の重みを再利用し, 視覚と言語間の効果的なモダリティアライメントを容易にし, データ効率を向上させる。実験結果は、MMBenchやSeedBenchといった汎用データセットや、TextVQAやDocVQAといったきめ細かいタスクを含む、さまざまなベンチマークにおけるEE-MLLMの有効性を示す。

関連論文リスト

Enhancing Large Language Models'Machine Translation via Dynamic Focus Anchoring [22.297388572921477]
機械翻訳(MT)を含む多言語NLPタスクにおいて、大規模言語モデルは例外的な性能を示した。持続的な課題は、多文語のような文脈依存単位(CSU)に対処することにある。本稿では,CSUの取得とセマンティックフォーカスの適用により,LLMのMT能力をシンプルかつ効果的に向上する手法を提案する。
論文参考訳（メタデータ） (2025-05-29T06:29:57Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training [12.911726316306755]
モータリティ構成不整合によるMLLMトレーニングにおける非効率性を軽減するためのフレームワークであるOrchMLLMを紹介する。 Batch Post-Balancing DispatcherとMLLM Global Orchestratorは、シーケンシャルデータにおけるミニバッチの不均衡を取り除くために使用される。 OrchMLLMは、84B MLLMを2560ドルのH100 GPUで3つのモダリティでトレーニングする際に、MFU(Model FLOPs utilization)を41.6%で達成し、Megatron-LMを最大3.1倍のスループットで上回っている。
論文参考訳（メタデータ） (2025-03-31T08:24:23Z)
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。最小限の設計により,本手法はビデオと画像の両方に応用できる。同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文参考訳（メタデータ） (2024-12-04T11:47:57Z)
Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文参考訳（メタデータ） (2024-11-30T18:54:32Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
Large language models enabled multiagent ensemble method for efficient EHR data labeling [9.481473827205159]
本研究では,MLにおける重要な課題であるデータラベリングに対処するため,LLMを用いた新しいマルチエージェントアンサンブル手法を提案する。アンサンブルLLMと自然言語処理を用いて、推定精度98.2%の623,566ECGのMIMIC-IV ECGデータセットをラベル付けした。我々は,1,405EHR臨床ノートの社会史セクションからSDOHを同定するために,アンサンブルLLMs法を適用し,競争性能も向上した。
論文参考訳（メタデータ） (2024-10-21T22:12:00Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
$γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。 $gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。 MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文参考訳（メタデータ） (2024-10-17T17:59:53Z)
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文参考訳（メタデータ） (2024-10-10T17:00:06Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文参考訳（メタデータ） (2024-07-23T03:58:08Z)
Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文参考訳（メタデータ） (2024-07-17T11:26:47Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。 1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文参考訳（メタデータ） (2024-01-12T06:28:54Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文参考訳（メタデータ） (2023-06-22T07:57:19Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。