Fugu-MT 論文翻訳(概要): Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning

論文の概要: Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning

arxiv url: http://arxiv.org/abs/2405.11640v1
Date: Sun, 19 May 2024 18:26:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 14:53:05.001525
Title: Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning
Title（参考訳）: Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning
Authors: Zishan Gu, Fenglin Liu, Changchang Yin, Ping Zhang,
Abstract要約: 医療における大規模言語モデル(LLM)の導入は、大きな研究関心を集めている。ほとんどの最先端のLCMは、マルチモーダル入力を直接処理できない、単調でテキストのみのモデルである。医療マルチモーダル推論問題を解決するために,マルチモーダル医療協調推論フレームワーク textbfMultiMedRes を提案する。
参考スコア（独自算出の注目度）: 21.562034852024272
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The adoption of large language models (LLMs) in healthcare has attracted significant research interest. However, their performance in healthcare remains under-investigated and potentially limited, due to i) they lack rich domain-specific knowledge and medical reasoning skills; and ii) most state-of-the-art LLMs are unimodal, text-only models that cannot directly process multimodal inputs. To this end, we propose a multimodal medical collaborative reasoning framework \textbf{MultiMedRes}, which incorporates a learner agent to proactively gain essential information from domain-specific expert models, to solve medical multimodal reasoning problems. Our method includes three steps: i) \textbf{Inquire}: The learner agent first decomposes given complex medical reasoning problems into multiple domain-specific sub-problems; ii) \textbf{Interact}: The agent then interacts with domain-specific expert models by repeating the ``ask-answer'' process to progressively obtain different domain-specific knowledge; iii) \textbf{Integrate}: The agent finally integrates all the acquired domain-specific knowledge to accurately address the medical reasoning problem. We validate the effectiveness of our method on the task of difference visual question answering for X-ray images. The experiments demonstrate that our zero-shot prediction achieves state-of-the-art performance, and even outperforms the fully supervised methods. Besides, our approach can be incorporated into various LLMs and multimodal LLMs to significantly boost their performance.
Abstract（参考訳）: 医療における大規模言語モデル(LLM)の導入は、大きな研究関心を集めている。しかし、医療における彼らの業績は未定であり、潜在的に制限されている。一豊かな専門知識及び医学的推論能力がないこと。二最先端のLLMのほとんどは、直接マルチモーダル入力を処理できない、非モーダルでテキストのみのモデルである。そこで本研究では,学習エージェントを組み込んだマルチモーダル医療協力型推論フレームワークである「textbf{MultiMedRes}」を提案する。私たちの方法には3つのステップがあります。 i) \textbf{Inquire}: 学習者はまず、与えられた複雑な医学的推論問題を複数のドメイン固有のサブプロブレムに分解する。 ii) \textbf{Interact}: エージェントは 'ask-answer' プロセスを繰り返してドメイン固有の専門家モデルと対話し、異なるドメイン固有の知識を段階的に取得する。 iii) \textbf{Integrate}: エージェントは取得したドメイン固有の知識をすべて統合し、医学的推論問題に正確に対処する。我々は,X線画像の差分視覚質問応答における手法の有効性を検証した。実験により、ゼロショット予測は最先端の性能を達成し、完全に教師された手法よりも優れることを示した。さらに,本手法を各種LLMおよびマルチモーダルLLMに組み込むことにより,性能を大幅に向上させることができる。

関連論文リスト

TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。 TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文参考訳（メタデータ） (2025-03-26T15:58:16Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。 ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文参考訳（メタデータ） (2024-10-21T07:19:19Z)
M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering [14.198330378235632]
我々は,3つのジェネラリストと3つの専門的なバイオメディカルサブドメインにおいて,22のデータセットに関する大規模な実験研究を行うために,複数選択と抽象質問応答を用いた。 15個のLLMの性能の多面的解析により、リコールや理解の向上につながる命令チューニングなどの成功要因が明らかになった。最近提案されたドメイン適応モデルには十分な知識が欠如している可能性があるが、収集した医療知識データセットを直接微調整することは、奨励的な結果を示している。我々は、必要な知識を単に思い出し、提示された知識と統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー解析で定量的結果を補完する。
論文参考訳（メタデータ） (2024-06-06T02:43:21Z)
Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。 Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文参考訳（メタデータ） (2024-04-16T02:35:17Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文参考訳（メタデータ） (2024-02-19T06:57:02Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning [35.804520192679874]
大規模言語モデル(LLM)は医療や医療において重大な障壁に直面している。 MedAgentsは医療分野のための新しい多分野連携フレームワークである。私たちの研究は、現実世界のシナリオに適用可能なゼロショット設定に焦点を当てています。
論文参考訳（メタデータ） (2023-11-16T11:47:58Z)
Path to Medical AGI: Unify Domain-specific Medical LLMs with the Lowest Cost [18.4295882376915]
医療人工知能(英語版) (AGI) は、幅広いタスクや領域において知識を理解し、学習し、適用できるシステムを開発することを目的としている。大規模言語モデル(LLM)は、AGIに向けた重要なステップである。ドメイン固有の医療用LLMを低コストで統一するためのパラダイムであるメディカルAGI(MedAGI)を提案する。
論文参考訳（メタデータ） (2023-06-19T08:15:14Z)
Multi-task Paired Masking with Alignment Modeling for Medical Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文参考訳（メタデータ） (2023-05-13T13:53:48Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)
Universal Model for Multi-Domain Medical Image Retrieval [88.67940265012638]
医用画像検索(MIR)は、医師が類似した患者のデータを素早く見つけるのに役立つ。 MIRはデジタル画像モダリティの多用により、ますます役に立ちつつある。しかし、病院における様々なデジタル画像モダリティの人気もまた、MIRにいくつかの課題をもたらしている。
論文参考訳（メタデータ） (2020-07-14T23:22:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。