論文の概要: Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
- arxiv url: http://arxiv.org/abs/2411.10669v1
- Date: Sat, 16 Nov 2024 02:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:33.657864
- Title: Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
- Title(参考訳): Awaker2.5-VL: パラメータ効率の良い専門家混合によるMLLMの安定スケーリング
- Authors: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu,
- Abstract要約: MLLM(Multimodal Large Language Models)に適したMixture of Experts(MoE)アーキテクチャであるAwaker2.5-VLを提案する。
Awaker2.5-VLのトレーニングと推論を高速化するために、我々のモデルの各専門家はローランク適応(LoRA)構造として考案される。
複数の最新のベンチマークの実験では、Awaker2.5-VLの有効性が示されている。
- 参考スコア(独自算出の注目度): 21.066098443321966
- License:
- Abstract: As the research of Multimodal Large Language Models (MLLMs) becomes popular, an advancing MLLM model is typically required to handle various textual and visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for real-world applications. However, due to the significant differences in representation and distribution among data from various tasks, simply mixing data of all tasks together leads to the well-known``multi-task conflict" issue, resulting in performance degradation across various tasks. To address this issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture suitable for MLLM, which acquires the multi-task capabilities through multiple sparsely activated experts. To speed up the training and inference of Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation (LoRA) structure. Extensive experiments on multiple latest benchmarks demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are released in our Project Page: https://github.com/MetabrainAGI/Awaker.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の研究が普及するにつれて、MLLMモデルは現実のアプリケーションのために様々なテキストおよび視覚的タスク(例えば、VQA、検出、OCR、ChartQA)を同時に扱うために必要となる。
しかし、様々なタスクからのデータ表現と分散に大きな違いがあるため、単にすべてのタスクのデータが混ざり合わされるだけで、よく知られた「マルチタスクの衝突」問題が発生し、様々なタスクのパフォーマンスが低下する。
本稿では,MLLMに適したMixture of Experts〜(MoE)アーキテクチャであるAwaker2.5-VLを提案する。
Awaker2.5-VLのトレーニングと推論を高速化するために、我々のモデルの各専門家はローランク適応(LoRA)構造として考案される。
複数の最新のベンチマークに関する大規模な実験は、Awaker2.5-VLの有効性を示している。
コードとモデルの重み付けは、Project Pageでリリースされています。
関連論文リスト
- Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。
本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - Making Small Language Models Better Multi-task Learners with
Mixture-of-Task-Adapters [13.6682552098234]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて、驚くべきゼロショット学習性能を達成した。
マルチタスク学習者に対して,小型言語モデルに基づくmixTure-of-task-adapterを効果的に構築するシステムであるALTERを提案する。
少ない計算コストでアダプタ間の協調を最適化する2段階の学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-20T03:39:56Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Multi-Task Meta Learning: learn how to adapt to unseen tasks [4.287114092271669]
本研究は,Multi-Task Learning(MTL)とメタラーニングという2つの学習パラダイムを統合する,MTML(Multi-task Meta Learning)を提案する。
基本的な考え方はマルチタスクモデルをトレーニングすることであり、例えば、目に見えないタスクを導入すると、より少ないステップで学習できると同時に、パフォーマンスを従来の単一タスク学習と同程度に向上させることができる。
MTMLは、NYU-v2データセットの4つのタスクのうち3つと、タスクノミーデータセットの4つのうち2つのタスクに対して、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-10-13T12:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。