論文の概要: Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning
- arxiv url: http://arxiv.org/abs/2405.11640v1
- Date: Sun, 19 May 2024 18:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:53:05.001525
- Title: Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning
- Title(参考訳): Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning
- Authors: Zishan Gu, Fenglin Liu, Changchang Yin, Ping Zhang,
- Abstract要約: 医療における大規模言語モデル(LLM)の導入は、大きな研究関心を集めている。
ほとんどの最先端のLCMは、マルチモーダル入力を直接処理できない、単調でテキストのみのモデルである。
医療マルチモーダル推論問題を解決するために,マルチモーダル医療協調推論フレームワーク textbfMultiMedRes を提案する。
- 参考スコア(独自算出の注目度): 21.562034852024272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The adoption of large language models (LLMs) in healthcare has attracted significant research interest. However, their performance in healthcare remains under-investigated and potentially limited, due to i) they lack rich domain-specific knowledge and medical reasoning skills; and ii) most state-of-the-art LLMs are unimodal, text-only models that cannot directly process multimodal inputs. To this end, we propose a multimodal medical collaborative reasoning framework \textbf{MultiMedRes}, which incorporates a learner agent to proactively gain essential information from domain-specific expert models, to solve medical multimodal reasoning problems. Our method includes three steps: i) \textbf{Inquire}: The learner agent first decomposes given complex medical reasoning problems into multiple domain-specific sub-problems; ii) \textbf{Interact}: The agent then interacts with domain-specific expert models by repeating the ``ask-answer'' process to progressively obtain different domain-specific knowledge; iii) \textbf{Integrate}: The agent finally integrates all the acquired domain-specific knowledge to accurately address the medical reasoning problem. We validate the effectiveness of our method on the task of difference visual question answering for X-ray images. The experiments demonstrate that our zero-shot prediction achieves state-of-the-art performance, and even outperforms the fully supervised methods. Besides, our approach can be incorporated into various LLMs and multimodal LLMs to significantly boost their performance.
- Abstract(参考訳): 医療における大規模言語モデル(LLM)の導入は、大きな研究関心を集めている。
しかし、医療における彼らの業績は未定であり、潜在的に制限されている。
一 豊かな専門知識及び医学的推論能力がないこと。
二 最先端のLLMのほとんどは、直接マルチモーダル入力を処理できない、非モーダルでテキストのみのモデルである。
そこで本研究では,学習エージェントを組み込んだマルチモーダル医療協力型推論フレームワークである「textbf{MultiMedRes}」を提案する。
私たちの方法には3つのステップがあります。
i) \textbf{Inquire}: 学習者はまず、与えられた複雑な医学的推論問題を複数のドメイン固有のサブプロブレムに分解する。
ii) \textbf{Interact}: エージェントは 'ask-answer' プロセスを繰り返してドメイン固有の専門家モデルと対話し、異なるドメイン固有の知識を段階的に取得する。
iii) \textbf{Integrate}: エージェントは取得したドメイン固有の知識をすべて統合し、医学的推論問題に正確に対処する。
我々は,X線画像の差分視覚質問応答における手法の有効性を検証した。
実験により、ゼロショット予測は最先端の性能を達成し、完全に教師された手法よりも優れることを示した。
さらに,本手法を各種LLMおよびマルチモーダルLLMに組み込むことにより,性能を大幅に向上させることができる。
関連論文リスト
- M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering [14.198330378235632]
我々は,3つのジェネラリストと3つの専門的なバイオメディカルサブドメインにおいて,22のデータセットに関する大規模な実験研究を行うために,複数選択と抽象質問応答を用いた。
15個のLLMの性能の多面的解析により、リコールや理解の向上につながる命令チューニングなどの成功要因が明らかになった。
最近提案されたドメイン適応モデルには十分な知識が欠如している可能性があるが、収集した医療知識データセットを直接微調整することは、奨励的な結果を示している。
我々は、必要な知識を単に思い出し、提示された知識と統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー解析で定量的結果を補完する。
論文 参考訳(メタデータ) (2024-06-06T02:43:21Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning [35.804520192679874]
大規模言語モデル(LLM)は医療や医療において重大な障壁に直面している。
MedAgentsは医療分野のための新しい多分野連携フレームワークである。
私たちの研究は、現実世界のシナリオに適用可能なゼロショット設定に焦点を当てています。
論文 参考訳(メタデータ) (2023-11-16T11:47:58Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Path to Medical AGI: Unify Domain-specific Medical LLMs with the Lowest
Cost [18.4295882376915]
医療人工知能(英語版) (AGI) は、幅広いタスクや領域において知識を理解し、学習し、適用できるシステムを開発することを目的としている。
大規模言語モデル(LLM)は、AGIに向けた重要なステップである。
ドメイン固有の医療用LLMを低コストで統一するためのパラダイムであるメディカルAGI(MedAGI)を提案する。
論文 参考訳(メタデータ) (2023-06-19T08:15:14Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Universal Model for Multi-Domain Medical Image Retrieval [88.67940265012638]
医用画像検索(MIR)は、医師が類似した患者のデータを素早く見つけるのに役立つ。
MIRはデジタル画像モダリティの多用により、ますます役に立ちつつある。
しかし、病院における様々なデジタル画像モダリティの人気もまた、MIRにいくつかの課題をもたらしている。
論文 参考訳(メタデータ) (2020-07-14T23:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。