論文の概要: 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark
- arxiv url: http://arxiv.org/abs/2504.13861v1
- Date: Wed, 26 Mar 2025 07:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.619697
- Title: 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark
- Title(参考訳): 3MDBench: 医療用マルチモーダルマルチエージェント対話ベンチマーク
- Authors: Ivan Sviridov, Amina Miftakhova, Artemiy Tereshchenko, Galina Zubkova, Pavel Blinov, Andrey Savchenko,
- Abstract要約: 遠隔医療への応用としてLVLM (Large Vision-Language Models) が検討されているが, 多様な患者行動への関与能力はいまだ検討されていない。
LLM駆動型医療相談の評価を目的としたオープンソースの評価フレームワークである3MDBenchを紹介する。
このベンチマークでは、34の一般的な診断にテキストと画像に基づく患者データを統合し、現実世界の遠隔医療の相互作用を反映している。
- 参考スコア(独自算出の注目度): 0.29987253996125257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) are increasingly being explored for applications in telemedicine, yet their ability to engage with diverse patient behaviors remains underexplored. We introduce 3MDBench (Medical Multimodal Multi-agent Dialogue Benchmark), an open-source evaluation framework designed to assess LLM-driven medical consultations. Unlike existing benchmarks, 3MDBench simulates real-world patient variability by incorporating four temperament-driven Patient Agents and an Assessor Agent that evaluates diagnostic accuracy and dialogue quality. The benchmark integrates textual and image-based patient data across 34 common diagnoses, mirroring real-world telemedicine interactions. Under different diagnostic strategies, we evaluate state-of-the-art LVLMs. Our findings demonstrate that incorporating dialogue improves the F1 score from 50.4 to 54.2 compared to non-dialogue settings, underscoring the value of context-driven, information-seeking questioning. Additionally, we demonstrate that multimodal inputs enhance diagnostic efficiency. Image-supported models outperform text-only counterparts by raising the diagnostic F1 score from 52.8 to 54.2 in a similar dialogue setting. Finally, we suggest an approach that improves the diagnostic F1-score to 70.3 by training the CNN model on the diagnosis prediction task and incorporating its top-3 predictions into the LVLM context. 3MDBench provides a reproducible and extendable evaluation framework for AI-driven medical assistants. It offers insights into how patient temperament, dialogue strategies, and multimodal reasoning influence diagnosis quality. By addressing real-world complexities in telemedicine, our benchmark paves the way for more empathetic, reliable, and context-aware AI-driven healthcare solutions. The source code of our benchmark is publicly available: https://github.com/univanxx/3mdbench
- Abstract(参考訳): 遠隔医療への応用のために、LVLM(Large Vision-Language Models)がますます研究されているが、様々な患者の行動に対処する能力はいまだに解明されていない。
3MDBench(Medical Multimodal Multi-agent Dialogue Benchmark)は,LSM駆動型医療相談の評価を目的としたオープンソースの評価フレームワークである。
既存のベンチマークとは異なり、3MDBenchは、診断精度と対話品質を評価する4つのテンペラメント駆動型患者エージェントとアセスザーエージェントを組み込むことで、現実世界の患者変動をシミュレートする。
このベンチマークでは、34の一般的な診断にテキストと画像に基づく患者データを統合し、現実世界の遠隔医療の相互作用を反映している。
診断戦略の相違により, 最先端のLVLMの評価を行った。
本研究は,F1スコアを50.4から54.2に改善し,文脈駆動型情報探索質問紙の価値を評価できることを示した。
さらに,マルチモーダル入力により診断効率が向上することが実証された。
画像支援モデルは、類似の対話環境において、診断用F1スコアを52.8から54.2に引き上げることにより、テキストのみよりも優れている。
最後に、診断予測タスク上でCNNモデルをトレーニングし、上位3の予測をLVLMコンテキストに組み込むことにより、診断F1スコアを70.3に改善するアプローチを提案する。
3MDBenchは、AI駆動型医療アシスタントのための再現可能で拡張可能な評価フレームワークを提供する。
患者の気質、対話戦略、マルチモーダル推論が診断品質にどのように影響するかについての洞察を提供する。
遠隔医療における現実の複雑さに対処することで、私たちのベンチマークは、共感的で信頼性があり、コンテキスト対応のAI駆動型ヘルスケアソリューションへの道を開いたのです。
ベンチマークのソースコードが公開されている。 https://github.com/univanxx/3mdbench。
関連論文リスト
- Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions [16.50490537786593]
MedAgentSimは、医師、患者、測定エージェントによる、オープンソースのシミュレートされた臨床環境である。
従来のアプローチとは違って,本フレームワークでは,マルチターン会話を通じて医師が患者と活発に交流する必要がある。
我々は、モデルが診断戦略を反復的に洗練できる自己改善メカニズムを組み込んだ。
論文 参考訳(メタデータ) (2025-03-28T17:59:53Z) - ProMRVL-CAD: Proactive Dialogue System with Multi-Round Vision-Language Interactions for Computer-Aided Diagnosis [0.7430974817507225]
コンピュータ支援診断(ProMRVL-CAD)のためのLLMベースの対話システム、すなわちプロアクティブな多ラウンド視覚言語インタラクションを開発する。
提案した ProMRVL-CAD システムでは,患者に対して,知識グラフをレコメンデーションシステムに統合することにより,一定の医療アクセスを提供することができる。
論文 参考訳(メタデータ) (2025-02-15T01:14:23Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Towards Conversational Diagnostic AI [32.84876349808714]
本稿では,診断対話に最適化されたLarge Language Model (LLM)ベースのAIシステムであるAMIE(Articulate Medical Intelligence Explorer)を紹介する。
AMIEは、さまざまな疾患条件にまたがって学習をスケールするための自動フィードバック機構を備えた、セルフプレイベースのシミュレート環境を使用する。
AMIEの診断精度は, 専門医によると32例中28例, 患者アクターでは26例中24例で高い成績を示した。
論文 参考訳(メタデータ) (2024-01-11T04:25:06Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。