論文の概要: Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
- arxiv url: http://arxiv.org/abs/2411.10669v1
- Date: Sat, 16 Nov 2024 02:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:33.657864
- Title: Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
- Title(参考訳): Awaker2.5-VL: パラメータ効率の良い専門家混合によるMLLMの安定スケーリング
- Authors: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu,
- Abstract要約: MLLM(Multimodal Large Language Models)に適したMixture of Experts(MoE)アーキテクチャであるAwaker2.5-VLを提案する。
Awaker2.5-VLのトレーニングと推論を高速化するために、我々のモデルの各専門家はローランク適応(LoRA)構造として考案される。
複数の最新のベンチマークの実験では、Awaker2.5-VLの有効性が示されている。
- 参考スコア(独自算出の注目度): 21.066098443321966
- License:
- Abstract: As the research of Multimodal Large Language Models (MLLMs) becomes popular, an advancing MLLM model is typically required to handle various textual and visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for real-world applications. However, due to the significant differences in representation and distribution among data from various tasks, simply mixing data of all tasks together leads to the well-known``multi-task conflict" issue, resulting in performance degradation across various tasks. To address this issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture suitable for MLLM, which acquires the multi-task capabilities through multiple sparsely activated experts. To speed up the training and inference of Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation (LoRA) structure. Extensive experiments on multiple latest benchmarks demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are released in our Project Page: https://github.com/MetabrainAGI/Awaker.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の研究が普及するにつれて、MLLMモデルは現実のアプリケーションのために様々なテキストおよび視覚的タスク(例えば、VQA、検出、OCR、ChartQA)を同時に扱うために必要となる。
しかし、様々なタスクからのデータ表現と分散に大きな違いがあるため、単にすべてのタスクのデータが混ざり合わされるだけで、よく知られた「マルチタスクの衝突」問題が発生し、様々なタスクのパフォーマンスが低下する。
本稿では,MLLMに適したMixture of Experts〜(MoE)アーキテクチャであるAwaker2.5-VLを提案する。
Awaker2.5-VLのトレーニングと推論を高速化するために、我々のモデルの各専門家はローランク適応(LoRA)構造として考案される。
複数の最新のベンチマークに関する大規模な実験は、Awaker2.5-VLの有効性を示している。
コードとモデルの重み付けは、Project Pageでリリースされています。
関連論文リスト
- MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。
本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [85.76186554492543]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は,MLLMを用いたマルチモーダル学習に関する総合的な研究と実験を行うための,Octaviusと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - Making Small Language Models Better Multi-task Learners with
Mixture-of-Task-Adapters [13.6682552098234]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて、驚くべきゼロショット学習性能を達成した。
マルチタスク学習者に対して,小型言語モデルに基づくmixTure-of-task-adapterを効果的に構築するシステムであるALTERを提案する。
少ない計算コストでアダプタ間の協調を最適化する2段階の学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-20T03:39:56Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Multi-Task Meta Learning: learn how to adapt to unseen tasks [4.287114092271669]
本研究は,Multi-Task Learning(MTL)とメタラーニングという2つの学習パラダイムを統合する,MTML(Multi-task Meta Learning)を提案する。
基本的な考え方はマルチタスクモデルをトレーニングすることであり、例えば、目に見えないタスクを導入すると、より少ないステップで学習できると同時に、パフォーマンスを従来の単一タスク学習と同程度に向上させることができる。
MTMLは、NYU-v2データセットの4つのタスクのうち3つと、タスクノミーデータセットの4つのうち2つのタスクに対して、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-10-13T12:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。