論文の概要: MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration
- arxiv url: http://arxiv.org/abs/2410.04521v1
- Date: Sun, 6 Oct 2024 15:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:56:10.202775
- Title: MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration
- Title(参考訳): MC-CoT: LLMとMLLMを統合したゼロショット医療VQAのためのモジュール協調CoTフレームワーク
- Authors: Lai Wei, Wenkai Wang, Xiaoyu Shen, Yu Xie, Zhihao Fan, Xiaojin Zhang, Zhongyu Wei, Wei Chen,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、医学的視覚的質問応答(Med-VQA)タスクに対処するために、特定の医療画像データセットに基づいて微調整されている。
本稿では,Med-VQAにおけるMLLMのゼロショット性能向上を目的とした,モジュール型クロスモーダル協調型Chain-of-ThoughtフレームワークであるMC-CoTを紹介する。
SLAKE, VQA-RAD, PATH-VQAなどのデータセットを用いた実験により, MC-CoT はスタンドアロンのMLLM や様々なマルチモーダル CoT フレームワークをリコール率と精度で上回っていることがわかった。
- 参考スコア(独自算出の注目度): 36.972533173970554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent advancements, multimodal large language models (MLLMs) have been fine-tuned on specific medical image datasets to address medical visual question answering (Med-VQA) tasks. However, this common approach of task-specific fine-tuning is costly and necessitates separate models for each downstream task, limiting the exploration of zero-shot capabilities. In this paper, we introduce MC-CoT, a modular cross-modal collaboration Chain-of-Thought (CoT) framework designed to enhance the zero-shot performance of MLLMs in Med-VQA by leveraging large language models (LLMs). MC-CoT improves reasoning and information extraction by integrating medical knowledge and task-specific guidance, where LLM provides various complex medical reasoning chains and MLLM provides various observations of medical images based on instructions of the LLM. Our experiments on datasets such as SLAKE, VQA-RAD, and PATH-VQA show that MC-CoT surpasses standalone MLLMs and various multimodality CoT frameworks in recall rate and accuracy. These findings highlight the importance of incorporating background information and detailed guidance in addressing complex zero-shot Med-VQA tasks.
- Abstract(参考訳): 近年,Med-VQA(Med-VQA)タスクに対処するために,特定の医用画像データセットに基づいてMLLM(Multimodal large language model)が微調整されている。
しかし、タスク固有の微調整の一般的なアプローチはコストが高く、ダウンストリームタスクごとに別々のモデルが必要であるため、ゼロショット能力の探索が制限される。
本稿では,大規模な言語モデル(LLM)を活用することで,Med-VQAにおけるMLLMのゼロショット性能を向上させることを目的とした,モジュール型クロスモーダルコラボレーションChain-of-Thought(CoT)フレームワークであるMC-CoTを紹介する。
MC-CoTは、医学知識とタスク固有のガイダンスを統合することで推論と情報抽出を改善し、LSMは様々な複雑な医学推論チェーンを提供し、MLLMはLSMの指示に基づいて様々な医学画像の観察を行う。
SLAKE, VQA-RAD, PATH-VQAなどのデータセットを用いた実験により, MC-CoT はスタンドアロンのMLLM や様々なマルチモーダル CoT フレームワークをリコール率と精度で上回っていることがわかった。
これらの知見は、複雑なゼロショットのMed-VQAタスクに、背景情報と詳細なガイダンスを組み込むことの重要性を強調している。
関連論文リスト
- Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE [17.94158825878658]
MLLM(Multi-modal large language model)は、様々な視覚的・言語的タスクのための汎用インタフェースとして、印象的な機能を示している。
Uni-Medは、普遍的な視覚的特徴抽出モジュール、CMoE(consor Mixed-of-experts)モジュール、LLMで構成される新しい医療一般モデルである。
我々の知る限り、Uni-MedはMLLMのコネクタにおけるマルチタスク干渉に対処する最初の試みである。
論文 参考訳(メタデータ) (2024-09-26T03:33:26Z) - Med-PMC: Medical Personalized Multi-modal Consultation with a Proactive Ask-First-Observe-Next Paradigm [20.569558434027986]
我々は,Med-PMC(Med-PMC)パラダイムを提案し,MLLM(Multi-Modal Large Language Models)の臨床能力を評価する。
Med-PMCは、MLLMが患者シミュレーターと対話し、マルチモーダルな情報収集と意思決定のタスクを完了する、シミュレーションされた臨床環境を構築する。
12種類のMLLMにアクセスするための広範囲な実験を行い,MLLMの臨床成績を概観した。
論文 参考訳(メタデータ) (2024-08-16T12:14:55Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models [22.76485170022542]
従来の中国医学検査課題を解くための大規模な手動指導を含む,新しいQAデータセットを提案する。
TCMDは、注釈付き医療科目で、さまざまな領域にまたがって大量の質問を集めています。
論文 参考訳(メタデータ) (2024-06-07T13:48:15Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - CLIPSyntel: CLIP and LLM Synergy for Multimodal Question Summarization
in Healthcare [16.033112094191395]
MMQS(Multimodal Medical Question Summarization)データセットを紹介する。
このデータセットは、医用クエリと視覚補助とを組み合わせ、患者のニーズに対するより豊かでニュアンスな理解を促進する。
また、医学的障害を識別し、関連するコンテキストを生成し、医療概念をフィルタリングし、視覚的に認識された要約を作成する4つのモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-16T03:02:05Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。