論文の概要: Automatic Replication of LLM Mistakes in Medical Conversations
- arxiv url: http://arxiv.org/abs/2512.20983v1
- Date: Wed, 24 Dec 2025 06:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.700076
- Title: Automatic Replication of LLM Mistakes in Medical Conversations
- Title(参考訳): 医療会話におけるLLMミスの自動再現
- Authors: Oleksii Proniakin, Diego Fajardo, Ruslan Nazarenko, Razvan Marinescu,
- Abstract要約: MedMistakeは、LCMが患者と医師の会話で犯した誤りを抽出し、それらを単発QAペアのベンチマークに変換する自動パイプラインである。
私たちは、3,390枚のシングルショットQAペアからなるデータセットであるMedMistake-Allをリリースした。
GPTモデルであるClaudeとGrokは、MedMistake-Benchで最高のパフォーマンスを得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly evaluated in clinical settings using multi-dimensional rubrics which quantify reasoning quality, safety, and patient-centeredness. Yet, replicating specific mistakes in other LLM models is not straightforward and often requires manual effort. We introduce MedMistake, an automatic pipeline that extracts mistakes LLMs make in patient-doctor conversations and converts them into a benchmark of single-shot QA pairs. Our pipeline (1) creates complex, conversational data between an LLM patient and LLM doctor, (2) runs an evaluation with a committee of 2 LLM judges across a variety of dimensions and (3) creates simplified single-shot QA scenarios from those mistakes. We release MedMistake-All, a dataset of 3,390 single-shot QA pairs where GPT-5 and Gemini 2.5 Pro are currently failing to answer correctly, as judged by two LLM judges. We used medical experts to validate a subset of 211/3390 questions (MedMistake-Bench), which we used to run a final evaluation of 12 frontier LLMs: Claude Opus 4.5, Claude Sonnet 4.5, DeepSeek-Chat, Gemini 2.5 Pro, Gemini 3 Pro, GPT-4o, GPT-5, GPT-5.1, GPT-5.2, Grok 4, Grok 4.1, Mistral Large. We found that GPT models, Claude and Grok obtained the best performance on MedMistake-Bench. We release both the doctor-validated benchmark (MedMistake-Bench), as well as the full dataset (MedMistake-All) at https://huggingface.co/datasets/TheLumos/MedicalMistakeBenchmark.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 推論品質, 安全性, 患者中心性を定量化する多次元ルーリックを用いて, 臨床現場でますます評価されている。
しかし、他のLLMモデルで特定のミスを複製するのは簡単ではなく、しばしば手作業を必要とする。
MedMistakeは、LCMが患者と医師の会話で犯した誤りを抽出し、それらを単発QAペアのベンチマークに変換する自動パイプラインである。
パイプライン(1)は, LLM患者と LLM 医師の複雑な会話データを作成し,(2) LLM 審査員の委員会で様々な次元で評価を行い,(3) それらのミスから簡易な単発QAシナリオを作成する。
私たちは、3,390枚のシングルショットQAペアからなるデータセットであるMedMistake-Allをリリースした。
我々は医療専門家を用いて211/3390の質問(MedMistake-Bench)のサブセットを検証し、Claude Opus 4.5, Claude Sonnet 4.5, DeepSeek-Chat, Gemini 2.5 Pro, Gemini 3 Pro, GPT-4o, GPT-5, GPT-5.1, GPT-5.2, Grok 4, Grok 4.1, Mistral Largeの12つのフロンティアLCMの最終的な評価を行った。
GPTモデルであるClaudeとGrokは、MedMistake-Benchで最高のパフォーマンスを得た。
博士評価ベンチマーク(MedMistake-Bench)と、https://huggingface.co/datasets/TheLumos/MedicalMistakeBenchmarkの完全なデータセット(MedMistake-All)の両方をリリースしています。
関連論文リスト
- Demo: Statistically Significant Results On Biases and Errors of LLMs Do Not Guarantee Generalizable Results [10.858989372235657]
本研究では,複数のLCM-as-a-judgeセットアップとプロンプトを用いて,これらのクエリに対する応答を評価する。
基礎研究として,LLM間の合意と回答および評価LLMの変化の影響について,2つの事例研究を行った。
論文 参考訳(メタデータ) (2025-11-04T04:20:33Z) - MedVAL: Toward Expert-Level Medical Text Validation with Language Models [19.885282576644077]
LM生成医療用テキストの精度と安全性を即時評価する必要がある。
現在、このような評価は手作業による医師の診察にのみ依存している。
本稿では, 合成データを利用して評価者を訓練する新しい, 自己監督型, 効率的な蒸留法であるMedVALを提案する。
論文 参考訳(メタデータ) (2025-07-03T20:19:18Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - GeoBenchX: Benchmarking LLMs in Agent Solving Multistep Geospatial Tasks [0.11458853556386796]
本稿では,大規模言語モデル(LLM)のツールコール能力を評価するためのベンチマークを確立する。
我々は,23の地理空間機能を備えた簡易なツールコールエージェントを用いて,8種類の商用LCM (Claude Sonnet 3.5, 4, Claude Haiku 3.5, Gemini 2.0 Flash, Gemini 2.5 Pro Preview, GPT-4o, GPT-4.1, o4-mini) を評価した。
OpenAIのGPT-4.1、GPT-4o、GoogleのGemini 2.5 Pro Previewはそれほど遅れていないが、最後の2つはより効率的である。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - A Continued Pretrained LLM Approach for Automatic Medical Note Generation [10.981182525560751]
HEALは13B LLaMA2をベースとしたLLMで, 医療会話用に構築され, 自動切削で測定される。
以上の結果から, HEALはPubMedQAにおいてGPT-4, PMC-LLaMAよりも78.4%優れていた。
興味深いことに、HEALはGPT-4とMed-PaLM 2を越え、より正確な医療概念を同定し、正確性と完全性においてヒトの書記体のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2024-03-14T02:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。