Fugu-MT 論文翻訳(概要): Advancing Conversational Diagnostic AI with Multimodal Reasoning

論文の概要: Advancing Conversational Diagnostic AI with Multimodal Reasoning

arxiv url: http://arxiv.org/abs/2505.04653v1
Date: Tue, 06 May 2025 20:52:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 21:43:49.614074
Title: Advancing Conversational Diagnostic AI with Multimodal Reasoning
Title（参考訳）: マルチモーダル推論を用いた会話型診断AIの開発
Authors: Khaled Saab, Jan Freyberg, Chunjong Park, Tim Strother, Yong Cheng, Wei-Hung Weng, David G. T. Barrett, David Stutz, Nenad Tomasev, Anil Palepu, Valentin Liévin, Yash Sharma, Roma Ruparel, Abdullah Ahmed, Elahe Vedadi, Kimberly Kanada, Cian Hughes, Yun Liu, Geoff Brown, Yang Gao, Sean Li, S. Sara Mahdavi, James Manyika, Katherine Chou, Yossi Matias, Avinatan Hassidim, Dale R. Webster, Pushmeet Kohli, S. M. Ali Eslami, Joëlle Barral, Adam Rodman, Vivek Natarajan, Mike Schaekermann, Tao Tu, Alan Karthikesalingam, Ryutaro Tanno,
Abstract要約: アーティキュレート・メディカル・インテリジェンス・エクスプローラー(AMIE) システムは、対話フローを中間モデル出力によって動的に制御する状態認識対話フレームワークを実装している。患者アクターとのチャットベースの相談の無作為で盲目なOSCEスタイルの研究において, AMIEをプライマリケア医師(PCP)と比較した。
参考スコア（独自算出の注目度）: 44.1996223689966
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated great potential for conducting diagnostic conversations but evaluation has been largely limited to language-only interactions, deviating from the real-world requirements of remote care delivery. Instant messaging platforms permit clinicians and patients to upload and discuss multimodal medical artifacts seamlessly in medical consultation, but the ability of LLMs to reason over such data while preserving other attributes of competent diagnostic conversation remains unknown. Here we advance the conversational diagnosis and management performance of the Articulate Medical Intelligence Explorer (AMIE) through a new capability to gather and interpret multimodal data, and reason about this precisely during consultations. Leveraging Gemini 2.0 Flash, our system implements a state-aware dialogue framework, where conversation flow is dynamically controlled by intermediate model outputs reflecting patient states and evolving diagnoses. Follow-up questions are strategically directed by uncertainty in such patient states, leading to a more structured multimodal history-taking process that emulates experienced clinicians. We compared AMIE to primary care physicians (PCPs) in a randomized, blinded, OSCE-style study of chat-based consultations with patient actors. We constructed 105 evaluation scenarios using artifacts like smartphone skin photos, ECGs, and PDFs of clinical documents across diverse conditions and demographics. Our rubric assessed multimodal capabilities and other clinically meaningful axes like history-taking, diagnostic accuracy, management reasoning, communication, and empathy. Specialist evaluation showed AMIE to be superior to PCPs on 7/9 multimodal and 29/32 non-multimodal axes (including diagnostic accuracy). The results show clear progress in multimodal conversational diagnostic AI, but real-world translation needs further research.
Abstract（参考訳）: 大きな言語モデル(LLM)は、診断会話を行う大きな可能性を示しているが、評価は主に言語のみのインタラクションに限られており、リモートケアの実際の要件から逸脱している。インスタントメッセージングプラットフォームは、臨床医や患者が医療相談においてシームレスにマルチモーダル医療アーティファクトをアップロードし、議論することを許可するが、LSMがそのようなデータを解析し、他の有能な診断会話の属性を保存する能力はいまだ不明である。本稿では,マルチモーダルデータを収集・解釈する新たな能力を通じて,Articulate Medical Intelligence Explorer (AMIE) の会話診断および管理性能を向上し,コンサルテーション中にこれを正確に推論する。 Gemini 2.0 Flashを活用することで,患者状態と診断の進化を反映した中間モデル出力によって会話の流れを動的に制御する,状態認識型対話フレームワークを実装した。フォローアップ質問は、そのような患者の状態の不確実性によって戦略的に誘導され、経験豊富な臨床医をエミュレートするより構造化されたマルチモーダルな履歴取りプロセスにつながる。患者アクターとのチャットベースの相談の無作為で盲目なOSCEスタイルの研究において, AMIEをプライマリケア医師(PCP)と比較した。我々は,スマートフォンの皮膚写真,心電図,臨床文書のPDFなどを用いた105件の評価シナリオを構築した。我々のルーリックは、マルチモーダル機能や、履歴取得、診断精度、管理推論、コミュニケーション、共感などの臨床的に有意義な軸を評価した。 7/9マルチモーダルおよび29/32非マルチモーダル軸(診断精度を含む)において,AMIEはPCPよりも優れていた。その結果,マルチモーダルな対話型診断AIの進歩が明らかとなったが,現実の翻訳にはさらなる研究が必要である。

関連論文リスト

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue [14.95390953068765]
大規模言語モデル (LLMs) は, バイオメディカルな質問応答の分野で優れた能力を発揮してきたが, 実際の臨床研究への応用はいまだに課題に直面している。我々は,医療相談を不確実性下での動的意思決定プロセスとしてモデル化する,強化学習(RL)に基づくマルチエージェント協調フレームワークであるOursを提案する。本手法は,医療資源の配分を最適化し,労働力不足を緩和する戦略の草分けとして,時間的プレッシャーによる誤診リスクの低減,複雑な症例に対する臨床医の解放,医療資源配分の最適化,労働力不足の緩和など,極めて実践的な価値を示す。
論文参考訳（メタデータ） (2025-05-26T07:48:14Z)
3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [0.29987253996125257]
遠隔医療への応用としてLVLM (Large Vision-Language Models) が検討されているが, 多様な患者行動への関与能力はいまだ検討されていない。 LLM駆動型医療相談の評価を目的としたオープンソースの評価フレームワークである3MDBenchを紹介する。このベンチマークでは、34の一般的な診断にテキストと画像に基づく患者データを統合し、現実世界の遠隔医療の相互作用を反映している。
論文参考訳（メタデータ） (2025-03-26T07:32:05Z)
ProMRVL-CAD: Proactive Dialogue System with Multi-Round Vision-Language Interactions for Computer-Aided Diagnosis [0.7430974817507225]
コンピュータ支援診断(ProMRVL-CAD)のためのLLMベースの対話システム、すなわちプロアクティブな多ラウンド視覚言語インタラクションを開発する。提案した ProMRVL-CAD システムでは,患者に対して,知識グラフをレコメンデーションシステムに統合することにより,一定の医療アクセスを提供することができる。
論文参考訳（メタデータ） (2025-02-15T01:14:23Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
A Two-Stage Proactive Dialogue Generator for Efficient Clinical Information Collection Using Large Language Model [0.6926413609535759]
患者情報収集作業を自動化する診断対話システムを提案する。医療史と会話のロジックを活用することで、会話エージェントは複数回にわたる臨床クエリを作成できる。実世界の医療会話データセットを用いた実験結果から,本モデルが実際の医師の会話スタイルを模倣した臨床クエリを生成できることが示唆された。
論文参考訳（メタデータ） (2024-10-02T19:32:11Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
Conversational Disease Diagnosis via External Planner-Controlled Large Language Models [18.93345199841588]
本研究は,医師のエミュレートによる計画能力の向上を目的としたLCMに基づく診断システムを提案する。実際の患者電子カルテデータを利用して,仮想患者と医師とのシミュレーション対話を構築した。
論文参考訳（メタデータ） (2024-04-04T06:16:35Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。 AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。 AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文参考訳（メタデータ） (2024-01-11T04:25:06Z)
MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。 MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文参考訳（メタデータ） (2020-10-15T03:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。