論文の概要: MedMT-Bench: Can LLMs Memorize and Understand Long Multi-Turn Conversations in Medical Scenarios?
- arxiv url: http://arxiv.org/abs/2603.23519v1
- Date: Fri, 06 Mar 2026 12:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.005006
- Title: MedMT-Bench: Can LLMs Memorize and Understand Long Multi-Turn Conversations in Medical Scenarios?
- Title(参考訳): MedMT-Bench:LLMは医療シナリオにおける長期多段階会話を記憶・理解できるか?
- Authors: Lin Yang, Yuancheng Yang, Xu Wang, Changkun Liu, Haihua Yang,
- Abstract要約: 我々は、MedMT-Benchという医療用マルチターンインストラクションをベンチマークで紹介する。
手動のエキスパート編集によって改良されたシーン・バイ・シーンデータ合成によるベンチマークを構築した。
各テストケースは平均22ラウンド(52ラウンドのコンテキスト)で、5種類の難しい命令が続く。
- 参考スコア(独自算出の注目度): 9.531847251088488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities across various specialist domains and have been integrated into high-stakes areas such as medicine. However, as existing medical-related benchmarks rarely stress-test the long-context memory, interference robustness, and safety defense required in practice. To bridge this gap, we introduce MedMT-Bench, a challenging medical multi-turn instruction following benchmark that simulates the entire diagnosis and treatment process. We construct the benchmark via scene-by-scene data synthesis refined by manual expert editing, yielding 400 test cases that are highly consistent with real-world application scenarios. Each test case has an average of 22 rounds (maximum of 52 rounds), covering 5 types of difficult instruction following issues. For evaluation, we propose an LLM-as-judge protocol with instance-level rubrics and atomic test points, validated against expert annotations with a human-LLM agreement of 91.94\%. We test 17 frontier models, all of which underperform on MedMT-Bench (overall accuracy below 60.00\%), with the best model reaching 59.75\%. MedMT-Bench can be an essential tool for driving future research towards safer and more reliable medical AI. The benchmark is available in https://openreview.net/attachment?id=aKyBCsPOHB&name=supplementary_material
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な専門分野にまたがる印象的な能力を示しており、医学のような高度な分野に統合されている。
しかし、既存の医療関連ベンチマークでは、ロングコンテキストメモリ、干渉堅牢性、実際必要とされる安全防衛をストレステストすることは稀である。
このギャップを埋めるために,MedMT-Benchを導入し,診断と治療の過程全体をシミュレートした医用マルチターン・インストラクションのベンチマークを行った。
手動のエキスパート編集によって改良されたシーン・バイ・シーンのデータ合成によるベンチマークを構築し,実世界のアプリケーションシナリオと高度に整合した400のテストケースを生成する。
各テストケースは平均22ラウンド(最大52ラウンド)で、5種類の難しい命令が続く。
評価のために,LLM-as-judgeプロトコルをインスタンスレベルのルーリックとアトミックなテストポイントで提案する。
我々は17のフロンティアモデルをテストし、いずれもMedMT-Bench(全精度が60.00\%未満)で性能が低く、最高のモデルは59.75\%に達した。
MedMT-Benchは、より安全で信頼性の高い医療AIに向けた将来の研究を推進するための重要なツールとなる。
ベンチマークはhttps://openreview.net/attachment?
id=aKyBCsPOHB&name=supplementary_ Materials
関連論文リスト
- QuarkMedBench: A Real-World Scenario Driven Benchmark for Evaluating Large Language Models [8.050059911826338]
LLM(Large Language Models)は、標準化された医療試験に優れるが、高いスコアは、現実世界の医療クエリに対する高品質な応答に変換できないことが多い。
実世界の医療LCM評価に適した生態学的に有効なベンチマークであるQuarkMedBenchを紹介する。
論文 参考訳(メタデータ) (2026-03-14T01:51:43Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。