論文の概要: Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE
- arxiv url: http://arxiv.org/abs/2409.17508v2
- Date: Fri, 1 Nov 2024 02:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 16:20:44.314514
- Title: Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE
- Title(参考訳): Uni-Med: マルチタスク学習のコネクタ-MoEのための統一医療一般モデル
- Authors: Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu,
- Abstract要約: MLLM(Multi-modal large language model)は、様々な視覚的・言語的タスクのための汎用インタフェースとして、印象的な機能を示している。
Uni-Medは、普遍的な視覚的特徴抽出モジュール、CMoE(consor Mixed-of-experts)モジュール、LLMで構成される新しい医療一般モデルである。
我々の知る限り、Uni-MedはMLLMのコネクタにおけるマルチタスク干渉に対処する最初の試みである。
- 参考スコア(独自算出の注目度): 17.94158825878658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs) have shown impressive capabilities as a general-purpose interface for various visual and linguistic tasks. However, building a unified MLLM for multi-task learning in the medical field remains a thorny challenge. To mitigate the tug-of-war problem of multi-modal multi-task optimization in MLLMs, recent advances primarily focus on improving the LLM components, while neglecting the connector that bridges the gap between modalities. In this paper, we introduce Uni-Med, a novel medical generalist foundation model which consists of a universal visual feature extraction module, a connector mixture-of-experts (CMoE) module, and an LLM. Benefiting from the proposed CMoE that leverages a well-designed router with a mixture of projection experts at the connector, Uni-Med achieves efficient solution to the tug-of-war problem and can perform six different medical tasks including question answering, visual question answering, report generation, referring expression comprehension, referring expression generation and image classification. To the best of our knowledge, Uni-Med is the first effort to tackle multi-task interference at the connector in MLLMs. Extensive ablation experiments validate the effectiveness of introducing CMoE under any configuration, with up to an average 8% performance gains. We further provide interpretation analysis of the tug-of-war problem from the perspective of gradient optimization and parameter statistics. Compared to previous state-of-the-art medical MLLMs, Uni-Med achieves competitive or superior evaluation metrics on diverse tasks. Code and resources are available at https://github.com/tsinghua-msiip/Uni-Med.
- Abstract(参考訳): MLLM(Multi-modal large language model)は、様々な視覚的・言語的タスクのための汎用インタフェースとして、印象的な機能を示している。
しかし、医療分野におけるマルチタスク学習のための統一MLLMの構築は、依然として厄介な課題である。
MLLMにおけるマルチモーダルマルチタスク最適化の綱引き問題を軽減するため、近年の進歩は、モダリティ間のギャップを埋めるコネクタを無視しつつ、LLMコンポーネントの改善に重点を置いている。
本稿では,Uni-Medについて紹介する。Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med。
コネクタにプロジェクションの専門家が混在したよく設計されたルータを活用したCMoEの利点として、Uni-Medは綱引き問題に対する効率的な解決策を実現し、質問応答、視覚的質問応答、レポート生成、表現理解の参照、表現生成、画像分類を含む6つの異なる医療タスクを実行できる。
我々の知る限り、Uni-MedはMLLMのコネクタにおけるマルチタスク干渉に対処する最初の試みである。
大規模なアブレーション実験により、任意の構成でCMoEを導入する効果が検証され、平均8%の性能向上が得られた。
さらに、勾配最適化とパラメータ統計の観点から、綱引き問題の解釈分析を行う。
従来の最先端の医療MLLMと比較すると、Uni-Medは多様なタスクにおける競争力や優れた評価基準を達成している。
コードとリソースはhttps://github.com/tsinghua-msiip/Uni-Med.comで入手できる。
関連論文リスト
- On the Compositional Generalization of Multimodal LLMs for Medical Imaging [14.419190976672065]
マルチモーダル大言語モデル(MLLM)は、医療分野において大きな可能性を秘めている。
それらの能力は、特定の医療領域における不十分なデータによって制限されることが多く、一般化のためにMLLMによってどのような種類の画像が使用できるかを理解する必要性を強調している。
本稿では,合成一般化(CG)モデルを用いた学習要素の組換えによる新しい組み合わせの理解手法を提案する。
実験の結果、MLLMはCGを使って見えない医療画像を理解することができ、マルチタスクトレーニングで観察される一般化の主要因の1つとしてCGを特定した。
論文 参考訳(メタデータ) (2024-12-28T07:50:00Z) - Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine [9.881981672848598]
MedPLIBという名前のバイオメディカルドメインのための新しいエンド・ツー・エンド・マルチモーダル・大規模言語モデルを導入する。
視覚的質問応答(VQA)、任意のピクセルレベルのプロンプト(ポイント、バウンディングボックス、自由形式の形状)、ピクセルレベルの接地をサポートする。
その結果,MedPLIBは複数の医学的視覚言語タスクにおいて最先端の結果を得たことが示唆された。
論文 参考訳(メタデータ) (2024-12-12T13:41:35Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration [36.972533173970554]
マルチモーダル大言語モデル(MLLM)は、医学的視覚的質問応答(Med-VQA)タスクに対処するために、特定の医療画像データセットに基づいて微調整されている。
本稿では,Med-VQAにおけるMLLMのゼロショット性能向上を目的とした,モジュール型クロスモーダル協調型Chain-of-ThoughtフレームワークであるMC-CoTを紹介する。
SLAKE, VQA-RAD, PATH-VQAなどのデータセットを用いた実験により, MC-CoT はスタンドアロンのMLLM や様々なマルチモーダル CoT フレームワークをリコール率と精度で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-06T15:28:48Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。