Fugu-MT 論文翻訳(概要): Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE

論文の概要: Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE

arxiv url: http://arxiv.org/abs/2409.17508v2
Date: Fri, 1 Nov 2024 02:38:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 16:20:44.314514
Title: Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE
Title（参考訳）: Uni-Med: マルチタスク学習のコネクタ-MoEのための統一医療一般モデル
Authors: Xun Zhu, Ying Hu, Fanbin Mo, Miao Li, Ji Wu,
Abstract要約: MLLM(Multi-modal large language model)は、様々な視覚的・言語的タスクのための汎用インタフェースとして、印象的な機能を示している。 Uni-Medは、普遍的な視覚的特徴抽出モジュール、CMoE(consor Mixed-of-experts)モジュール、LLMで構成される新しい医療一般モデルである。我々の知る限り、Uni-MedはMLLMのコネクタにおけるマルチタスク干渉に対処する最初の試みである。
参考スコア（独自算出の注目度）: 17.94158825878658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal large language models (MLLMs) have shown impressive capabilities as a general-purpose interface for various visual and linguistic tasks. However, building a unified MLLM for multi-task learning in the medical field remains a thorny challenge. To mitigate the tug-of-war problem of multi-modal multi-task optimization in MLLMs, recent advances primarily focus on improving the LLM components, while neglecting the connector that bridges the gap between modalities. In this paper, we introduce Uni-Med, a novel medical generalist foundation model which consists of a universal visual feature extraction module, a connector mixture-of-experts (CMoE) module, and an LLM. Benefiting from the proposed CMoE that leverages a well-designed router with a mixture of projection experts at the connector, Uni-Med achieves efficient solution to the tug-of-war problem and can perform six different medical tasks including question answering, visual question answering, report generation, referring expression comprehension, referring expression generation and image classification. To the best of our knowledge, Uni-Med is the first effort to tackle multi-task interference at the connector in MLLMs. Extensive ablation experiments validate the effectiveness of introducing CMoE under any configuration, with up to an average 8% performance gains. We further provide interpretation analysis of the tug-of-war problem from the perspective of gradient optimization and parameter statistics. Compared to previous state-of-the-art medical MLLMs, Uni-Med achieves competitive or superior evaluation metrics on diverse tasks. Code and resources are available at https://github.com/tsinghua-msiip/Uni-Med.
Abstract（参考訳）: MLLM(Multi-modal large language model)は、様々な視覚的・言語的タスクのための汎用インタフェースとして、印象的な機能を示している。しかし、医療分野におけるマルチタスク学習のための統一MLLMの構築は、依然として厄介な課題である。 MLLMにおけるマルチモーダルマルチタスク最適化の綱引き問題を軽減するため、近年の進歩は、モダリティ間のギャップを埋めるコネクタを無視しつつ、LLMコンポーネントの改善に重点を置いている。本稿では,Uni-Medについて紹介する。Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med,Uni-Med。コネクタにプロジェクションの専門家が混在したよく設計されたルータを活用したCMoEの利点として、Uni-Medは綱引き問題に対する効率的な解決策を実現し、質問応答、視覚的質問応答、レポート生成、表現理解の参照、表現生成、画像分類を含む6つの異なる医療タスクを実行できる。我々の知る限り、Uni-MedはMLLMのコネクタにおけるマルチタスク干渉に対処する最初の試みである。大規模なアブレーション実験により、任意の構成でCMoEを導入する効果が検証され、平均8%の性能向上が得られた。さらに、勾配最適化とパラメータ統計の観点から、綱引き問題の解釈分析を行う。従来の最先端の医療MLLMと比較すると、Uni-Medは多様なタスクにおける競争力や優れた評価基準を達成している。コードとリソースはhttps://github.com/tsinghua-msiip/Uni-Med.comで入手できる。

関連論文リスト

MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文参考訳（メタデータ） (2025-06-24T17:52:43Z)
Med-U1: Incentivizing Unified Medical Reasoning in LLMs via Large-scale Reinforcement Learning [20.878972841860975]
本稿では,医療質問応答(QA)タスクにおける頑健な推論のための統一的枠組みであるMed-U1を提案する。多目的報酬最適化により、Med-U1 は LLM に簡潔で検証可能な推論連鎖を生成するよう指示する。実験の結果、Med-U1は複数の挑戦的なMed-QAベンチマークでパフォーマンスを著しく改善することがわかった。
論文参考訳（メタデータ） (2025-06-14T02:00:36Z)
UMIT: Unifying Medical Imaging Tasks via Vision-Language Models [17.65946656129399]
UMITは医療画像処理に特化したマルチモーダル・マルチタスクVLMである。視覚的質問応答、疾患検出、医療報告生成など、さまざまな課題を解決できる。英語と中国語の両方をサポートし、その適用範囲を全世界で拡大している。
論文参考訳（メタデータ） (2025-03-20T06:43:36Z)
On the Compositional Generalization of Multimodal LLMs for Medical Imaging [14.419190976672065]
マルチモーダル大言語モデル(MLLM)は、医療分野において大きな可能性を秘めている。それらの能力は、特定の医療領域における不十分なデータによって制限されることが多く、一般化のためにMLLMによってどのような種類の画像が使用できるかを理解する必要性を強調している。本稿では,合成一般化(CG)モデルを用いた学習要素の組換えによる新しい組み合わせの理解手法を提案する。実験の結果、MLLMはCGを使って見えない医療画像を理解することができ、マルチタスクトレーニングで観察される一般化の主要因の1つとしてCGを特定した。
論文参考訳（メタデータ） (2024-12-28T07:50:00Z)
Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine [9.881981672848598]
MedPLIBという名前のバイオメディカルドメインのための新しいエンド・ツー・エンド・マルチモーダル・大規模言語モデルを導入する。視覚的質問応答(VQA)、任意のピクセルレベルのプロンプト(ポイント、バウンディングボックス、自由形式の形状)、ピクセルレベルの接地をサポートする。その結果,MedPLIBは複数の医学的視覚言語タスクにおいて最先端の結果を得たことが示唆された。
論文参考訳（メタデータ） (2024-12-12T13:41:35Z)
Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。 ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文参考訳（メタデータ） (2024-10-21T07:19:19Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration [36.972533173970554]
マルチモーダル大言語モデル(MLLM)は、医学的視覚的質問応答(Med-VQA)タスクに対処するために、特定の医療画像データセットに基づいて微調整されている。本稿では,Med-VQAにおけるMLLMのゼロショット性能向上を目的とした,モジュール型クロスモーダル協調型Chain-of-ThoughtフレームワークであるMC-CoTを紹介する。 SLAKE, VQA-RAD, PATH-VQAなどのデータセットを用いた実験により, MC-CoT はスタンドアロンのMLLM や様々なマルチモーダル CoT フレームワークをリコール率と精度で上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-06T15:28:48Z)
MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文参考訳（メタデータ） (2024-07-17T16:31:38Z)
Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。 Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文参考訳（メタデータ） (2024-04-16T02:35:17Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
CLIPSyntel: CLIP and LLM Synergy for Multimodal Question Summarization in Healthcare [16.033112094191395]
MMQS(Multimodal Medical Question Summarization)データセットを紹介する。このデータセットは、医用クエリと視覚補助とを組み合わせ、患者のニーズに対するより豊かでニュアンスな理解を促進する。また、医学的障害を識別し、関連するコンテキストを生成し、医療概念をフィルタリングし、視覚的に認識された要約を作成する4つのモジュールからなるフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-16T03:02:05Z)
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文参考訳（メタデータ） (2023-11-13T18:59:47Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。