論文の概要: 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark
- arxiv url: http://arxiv.org/abs/2504.13861v3
- Date: Sat, 01 Nov 2025 13:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:21.959799
- Title: 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark
- Title(参考訳): 3MDBench: 医療用マルチモーダルマルチエージェント対話ベンチマーク
- Authors: Ivan Sviridov, Amina Miftakhova, Artemiy Tereshchenko, Galina Zubkova, Pavel Blinov, Andrey Savchenko,
- Abstract要約: 3MDBenchは、LVLM駆動の遠隔医療相談をシミュレートし評価するためのオープンソースのフレームワークである。
内部推論によるマルチモーダル対話は、非対話設定よりもF1スコアが6.5%向上する。
診断畳み込みニューラルネットワークからLVLMのコンテキストに予測を注入すると、F1は最大20%向上する。
- 参考スコア(独自算出の注目度): 2.3011663397108078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though Large Vision-Language Models (LVLMs) are being actively explored in medicine, their ability to conduct complex real-world telemedicine consultations combining accurate diagnosis with professional dialogue remains underexplored. This paper presents 3MDBench (Medical Multimodal Multi-agent Dialogue Benchmark), an open-source framework for simulating and evaluating LVLM-driven telemedical consultations. 3MDBench simulates patient variability through temperament-based Patient Agent and evaluates diagnostic accuracy and dialogue quality via Assessor Agent. It includes 2996 cases across 34 diagnoses from real-world telemedicine interactions, combining textual and image-based data. The experimental study compares diagnostic strategies for widely used open and closed-source LVLMs. We demonstrate that multimodal dialogue with internal reasoning improves F1 score by 6.5% over non-dialogue settings, highlighting the importance of context-aware, information-seeking questioning. Moreover, injecting predictions from a diagnostic convolutional neural network into the LVLM's context boosts F1 by up to 20%. Source code is available at https://github.com/univanxx/3mdbench.
- Abstract(参考訳): 医療分野ではLVLM(Large Vision-Language Models)が積極的に研究されているが、専門的対話と正確な診断を組み合わせた複雑な実世界の遠隔医療相談を行う能力はいまだ検討されていない。
本稿では3MDBench(Medical Multimodal Multi-agent Dialogue Benchmark)について述べる。
3MDBenchは, 体温に基づく患者エージェントを用いて患者の変動をシミュレートし, Assessor Agentを介して診断精度と対話品質を評価する。
実世界の遠隔医療の対話から34の診断を巡って2996件の症例が含まれており、テキストと画像に基づくデータを組み合わせている。
実験では,広く利用されているオープンソースLVLMの診断戦略を比較した。
内部推論を用いたマルチモーダル対話では,非対話設定よりもF1スコアが6.5%向上し,文脈認識,情報検索の重要性が強調された。
さらに、診断畳み込みニューラルネットワークからLVLMのコンテキストに予測を注入することで、F1を最大20%向上させる。
ソースコードはhttps://github.com/univanxx/3mdbench.comで入手できる。
関連論文リスト
- DocCHA: Towards LLM-Augmented Interactive Online diagnosis System [17.975659876934895]
DocCHAは、診断プロセスを3段階に分解することで臨床推論をエミュレートする、信頼性に配慮したモジュラーなフレームワークである。
実世界の中国のコンサルティングデータセットを2つ評価した。
論文 参考訳(メタデータ) (2025-07-10T15:52:04Z) - DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue [14.95390953068765]
大規模言語モデル (LLMs) は, バイオメディカルな質問応答の分野で優れた能力を発揮してきたが, 実際の臨床研究への応用はいまだに課題に直面している。
我々は,医療相談を不確実性下での動的意思決定プロセスとしてモデル化する,強化学習(RL)に基づくマルチエージェント協調フレームワークであるOursを提案する。
本手法は,医療資源の配分を最適化し,労働力不足を緩和する戦略の草分けとして,時間的プレッシャーによる誤診リスクの低減,複雑な症例に対する臨床医の解放,医療資源配分の最適化,労働力不足の緩和など,極めて実践的な価値を示す。
論文 参考訳(メタデータ) (2025-05-26T07:48:14Z) - Advancing Conversational Diagnostic AI with Multimodal Reasoning [44.1996223689966]
アーティキュレート・メディカル・インテリジェンス・エクスプローラー(AMIE)
システムは、対話フローを中間モデル出力によって動的に制御する状態認識対話フレームワークを実装している。
患者アクターとのチャットベースの相談の無作為で盲目なOSCEスタイルの研究において, AMIEをプライマリケア医師(PCP)と比較した。
論文 参考訳(メタデータ) (2025-05-06T20:52:01Z) - Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions [16.50490537786593]
MedAgentSimは、医師、患者、測定エージェントによる、オープンソースのシミュレートされた臨床環境である。
従来のアプローチとは違って,本フレームワークでは,マルチターン会話を通じて医師が患者と活発に交流する必要がある。
我々は、モデルが診断戦略を反復的に洗練できる自己改善メカニズムを組み込んだ。
論文 参考訳(メタデータ) (2025-03-28T17:59:53Z) - ProMRVL-CAD: Proactive Dialogue System with Multi-Round Vision-Language Interactions for Computer-Aided Diagnosis [0.7430974817507225]
コンピュータ支援診断(ProMRVL-CAD)のためのLLMベースの対話システム、すなわちプロアクティブな多ラウンド視覚言語インタラクションを開発する。
提案した ProMRVL-CAD システムでは,患者に対して,知識グラフをレコメンデーションシステムに統合することにより,一定の医療アクセスを提供することができる。
論文 参考訳(メタデータ) (2025-02-15T01:14:23Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。
AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。
AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (2024-01-11T04:25:06Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。