Fugu-MT 論文翻訳(概要): Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts

論文の概要: Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts

arxiv url: http://arxiv.org/abs/2411.10669v1
Date: Sat, 16 Nov 2024 02:10:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.286137
Title: Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
Title（参考訳）: Awaker2.5-VL: パラメータ効率の良い専門家混合によるMLLMの安定スケーリング
Authors: Jinqiang Long, Yanqi Dai, Guoxing Yang, Hongpeng Lin, Nanyi Fei, Yizhao Gao, Zhiwu Lu,
Abstract要約: MLLM(Multimodal Large Language Models)に適したMixture of Experts(MoE)アーキテクチャであるAwaker2.5-VLを提案する。 Awaker2.5-VLのトレーニングと推論を高速化するために、我々のモデルの各専門家はローランク適応(LoRA)構造として考案される。複数の最新のベンチマークの実験では、Awaker2.5-VLの有効性が示されている。
参考スコア（独自算出の注目度）: 21.066098443321966
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As the research of Multimodal Large Language Models (MLLMs) becomes popular, an advancing MLLM model is typically required to handle various textual and visual tasks (e.g., VQA, Detection, OCR, and ChartQA) simultaneously for real-world applications. However, due to the significant differences in representation and distribution among data from various tasks, simply mixing data of all tasks together leads to the well-known``multi-task conflict" issue, resulting in performance degradation across various tasks. To address this issue, we propose Awaker2.5-VL, a Mixture of Experts~(MoE) architecture suitable for MLLM, which acquires the multi-task capabilities through multiple sparsely activated experts. To speed up the training and inference of Awaker2.5-VL, each expert in our model is devised as a low-rank adaptation (LoRA) structure. Extensive experiments on multiple latest benchmarks demonstrate the effectiveness of Awaker2.5-VL. The code and model weight are released in our Project Page: https://github.com/MetabrainAGI/Awaker.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の研究が普及するにつれて、MLLMモデルは現実のアプリケーションのために様々なテキストおよび視覚的タスク(例えば、VQA、検出、OCR、ChartQA)を同時に扱うために必要となる。しかし、様々なタスクからのデータ表現と分散に大きな違いがあるため、単にすべてのタスクのデータが混ざり合わされるだけで、よく知られた「マルチタスクの衝突」問題が発生し、様々なタスクのパフォーマンスが低下する。本稿では,MLLMに適したMixture of Experts〜(MoE)アーキテクチャであるAwaker2.5-VLを提案する。 Awaker2.5-VLのトレーニングと推論を高速化するために、我々のモデルの各専門家はローランク適応(LoRA)構造として考案される。複数の最新のベンチマークに関する大規模な実験は、Awaker2.5-VLの有効性を示している。コードとモデルの重み付けは、Project Pageでリリースされています。

関連論文リスト

Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models [44.32482918853282]
マルチソースMLLMタスクを安定した強化学習に活用できる作業は存在しない。混合報酬関数設計(Mixed-Reward)と混合後学習データセット(Mixed-45K)を含む統一的かつ簡単なフレームワークであるMixed-R1を提案する。特に、バイナリ回答や複数選択問題に対する報酬のマッチング、チャート対応データセットに対するチャート報酬、基底問題に対するIoU報酬、キャプションデータセットのような長文応答に対するオープンエンド報酬の4つの異なる報酬機能がある。
論文参考訳（メタデータ） (2025-05-30T03:11:46Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering [27.812611421754482]
連続視覚質問応答 (VQA) のためのMLLMs-based dual momentum Mixture-of-Experts (CL-MoE) フレームワークを提案する。 MLLMと連続学習を統合し,LLMの豊富なコモンセンス知識を活用する。提案手法は,10VQAタスクにおける最先端性能を実現し,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2025-03-01T09:25:23Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。 We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文参考訳（メタデータ） (2024-10-07T06:36:55Z)
MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文参考訳（メタデータ） (2024-07-17T16:31:38Z)
MT2ST: Adaptive Multi-Task to Single-Task Learning [6.185573921868495]
マルチタスク学習(MTL)における一般化とシングルタスク学習(STL)における精度のトレードオフについて,MT2ST(Multi-Task to Single-Task)フレームワークを導入して検討する。 MT2STは、マルチモーダルタスクにおけるトレーニング効率と精度を高めるために設計されており、効率的な機械学習の実践的応用としての価値を示している。
論文参考訳（メタデータ） (2024-06-26T03:12:07Z)
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文参考訳（メタデータ） (2024-06-12T16:44:50Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。ネガティブな対立や干渉はパフォーマンスに悪影響を及ぼすかもしれない我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文参考訳（メタデータ） (2023-11-05T15:48:29Z)
Making Small Language Models Better Multi-task Learners with Mixture-of-Task-Adapters [13.6682552098234]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて、驚くべきゼロショット学習性能を達成した。マルチタスク学習者に対して,小型言語モデルに基づくmixTure-of-task-adapterを効果的に構築するシステムであるALTERを提案する。少ない計算コストでアダプタ間の協調を最適化する2段階の学習手法を提案する。
論文参考訳（メタデータ） (2023-09-20T03:39:56Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2023-03-04T19:07:48Z)
Multi-Task Meta Learning: learn how to adapt to unseen tasks [4.287114092271669]
本研究は,Multi-Task Learning(MTL)とメタラーニングという2つの学習パラダイムを統合する,MTML(Multi-task Meta Learning)を提案する。基本的な考え方はマルチタスクモデルをトレーニングすることであり、例えば、目に見えないタスクを導入すると、より少ないステップで学習できると同時に、パフォーマンスを従来の単一タスク学習と同程度に向上させることができる。 MTMLは、NYU-v2データセットの4つのタスクのうち3つと、タスクノミーデータセットの4つのうち2つのタスクに対して、最先端の結果を達成する。
論文参考訳（メタデータ） (2022-10-13T12:59:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。