論文の概要: MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2401.15947v2
- Date: Sun, 4 Feb 2024 05:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:26:53.214098
- Title: MoE-LLaVA: Mixture of Experts for Large Vision-Language Models
- Title(参考訳): MoE-LLaVA:大型ビジョンランゲージモデルの専門家の混在
- Authors: Bin Lin, Zhenyu Tang, Yang Ye, Jiaxi Cui, Bin Zhu, Peng Jin, Jinfa
Huang, Junwu Zhang, Munan Ning, Li Yuan
- Abstract要約: 本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャで、ルータを通じてトップkの専門家のみをユニークに起動する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
- 参考スコア(独自算出の注目度): 29.234931173107825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances demonstrate that scaling Large Vision-Language Models (LVLMs)
effectively improves downstream task performances. However, existing scaling
methods enable all model parameters to be active for each token in the
calculation, which brings massive training and inferring costs. In this work,
we propose a simple yet effective training strategy MoE-Tuning for LVLMs. This
strategy innovatively addresses the common issue of performance degradation in
multi-modal sparsity learning, consequently constructing a sparse model with an
outrageous number of parameters but a constant computational cost. Furthermore,
we present the MoE-LLaVA, a MoE-based sparse LVLM architecture, which uniquely
activates only the top-k experts through routers during deployment, keeping the
remaining experts inactive. Extensive experiments show the significant
performance of MoE-LLaVA in a variety of visual understanding and object
hallucination benchmarks. Remarkably, with only approximately 3B sparsely
activated parameters, MoE-LLaVA demonstrates performance comparable to the
LLaVA-1.5-7B on various visual understanding datasets and even surpasses the
LLaVA-1.5-13B in object hallucination benchmark. Through MoE-LLaVA, we aim to
establish a baseline for sparse LVLMs and provide valuable insights for future
research in developing more efficient and effective multi-modal learning
systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.
- Abstract(参考訳): 最近の進歩は、LVLM(Large Vision-Language Models)のスケールが、下流タスクのパフォーマンスを効果的に改善することを示している。
しかし、既存のスケーリング手法により、計算の各トークンに対してすべてのモデルパラメータがアクティブになり、大量のトレーニングとコストの推測が可能になる。
本研究では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
この戦略は、マルチモーダルスパルシティ学習における性能低下の一般的な問題に革新的に対処し、不規則なパラメータを持つが一定の計算コストを持つスパースモデルを構築した。
さらに,MoEをベースとしたスパースLVLMアーキテクチャであるMoE-LLaVAについて述べる。
広範囲にわたる実験は、様々な視覚的理解と物体幻覚ベンチマークにおけるMoE-LLaVAの顕著な性能を示している。
注目すべきは、約3Bのわずかに活性化されたパラメータだけで、MoE-LLaVAは様々な視覚的理解データセット上でLLaVA-1.5-7Bに匹敵する性能を示し、オブジェクト幻覚ベンチマークではLLaVA-1.5-13Bを超えていることだ。
MoE-LLaVAを通じて、スパースLVLMのベースラインを確立し、より効率的で効果的なマルチモーダル学習システムの開発において、今後の研究に有用な洞察を提供する。
コードは \url{https://github.com/PKU-YuanGroup/MoE-LLaVA} で公開されている。
関連論文リスト
- Efficiently Integrate Large Language Models with Visual Perception: A Survey from the Training Paradigm Perspective [3.2418962303343863]
本稿では,トップカンファレンス,ジャーナル,高度に引用されたArxiv論文から34の視覚大言語モデル(VLLM)を分類し,レビューする。
まず,大規模言語モデルとパラメータ効率の学習手法のアーキテクチャを導入し,視覚エンコーダとモダリティエンコーダの包括的分類法について議論した。
論文 参考訳(メタデータ) (2025-02-03T17:01:59Z) - LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。
目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。
MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文 参考訳(メタデータ) (2024-12-16T21:14:11Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。