論文の概要: Prompting language influences diagnostic reasoning and accuracy of large language models
- arxiv url: http://arxiv.org/abs/2605.19173v1
- Date: Mon, 18 May 2026 22:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.019151
- Title: Prompting language influences diagnostic reasoning and accuracy of large language models
- Title(参考訳): プロンプト言語は大規模言語モデルの診断的推論と精度に影響を与える
- Authors: Adrien Bazoge, Josselin Corvellec, Sofiane Djillali Sid-Ahmed, Pierre-Antoine Gourraud,
- Abstract要約: 大規模言語モデル (LLMs) は, 臨床診断支援のために研究されている。
ほとんどの評価は英語で行われ、他の言語での信頼性は不確実である。
ここでは、英語とフランス語のパフォーマンスを比較することにより、言語が診断的推論と最終診断精度に与える影響を評価する。
- 参考スコア(独自算出の注目度): 2.2338566701700233
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) are increasingly explored for clinical decision support, yet most evaluations are conducted in English, leaving their reliability in other languages uncertain. Here we evaluate the impact of prompting language on diagnostic reasoning and final diagnosis accuracy by comparing English and French performance across five LLMs (o3, DeepSeek-R1, GPT-4-Turbo, Llama-3.1-405B-Instruct, and BioMistral-7B). A total of 180 clinical vignettes covering 16 medical specialties were assessed by two physicians using an 18-point scale evaluating both diagnosis accuracy and reasoning quality. Four of the five models performed better in English (mean difference 0.37-0.91, adjusted p < 0.05), with the gap spanning multiple aspects of reasoning, including differential diagnosis, logical structure, and internal validity. o3 was the only model showing no overall language effect. These findings demonstrate that prompting language remains a critical determinant of LLM clinical performance, with implications for equitable linguistico-cultural deployment worldwide.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 臨床診断支援のために研究が進んでいるが, ほとんどの評価は英語で行われ, その他の言語での信頼性は不透明である。
そこで本研究では,5つのLLM(o3,DeepSeek-R1,GPT-4-Turbo,Llama-3.1-405B-Instruct,BioMistral-7B)で英語とフランス語のパフォーマンスを比較することにより,言語が診断的推論と最終診断精度に与える影響を評価する。
臨床専門医16名を対象に, 診断精度と推論品質を18点尺度で評価した。
5つのモデルのうち4つ(平均差0.37-0.91、調整したp < 0.05)は、差分診断、論理構造、内部妥当性など、推論の複数の側面にまたがるギャップがある。
O3は言語全体の影響を示さない唯一のモデルだった。
これらの結果から,LLM臨床成績の重要な決定要因は,言語・文化の均等な展開に影響を及ぼすことが示唆された。
関連論文リスト
- M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - Prompt engineering does not universally improve Large Language Model performance across clinical decision-making tasks [0.0]
LLM(Large Language Models)は、医学的知識評価において有望であるが、実際の臨床的意思決定における実用性は未定である。
一般患者における臨床理由づけのワークフロー全体にわたって, 最先端のLCMs-ChatGPT-4o, Gemini 1.5 Pro, LIama 3.370B-inの臨床的意思決定支援の評価を行った。
論文 参考訳(メタデータ) (2025-12-28T15:15:51Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - DocCHA: Towards LLM-Augmented Interactive Online diagnosis System [17.975659876934895]
DocCHAは、診断プロセスを3段階に分解することで臨床推論をエミュレートする、信頼性に配慮したモジュラーなフレームワークである。
実世界の中国のコンサルティングデータセットを2つ評価した。
論文 参考訳(メタデータ) (2025-07-10T15:52:04Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context [0.9074663948713616]
メンタルヘルス障害はアラブ世界で公衆衛生の懸念が高まっている。
本研究は,多様なメンタルヘルスデータセットに基づいて,8つの大言語モデル(LLM)を包括的に評価する。
論文 参考訳(メタデータ) (2025-01-12T16:17:25Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Evaluating Large Language Models for Radiology Natural Language
Processing [68.98847776913381]
大規模言語モデル(LLM)の台頭は、自然言語処理(NLP)分野における重要な転換点となっている。
本研究は, 放射線学報告の解釈において, 30 個の LLM を批判的に評価することにより, このギャップを埋めることを目指している。
論文 参考訳(メタデータ) (2023-07-25T17:57:18Z) - Almanac: Retrieval-Augmented Language Models for Clinical Medicine [1.5505279143287174]
医療ガイドラインと治療勧告の検索機能を備えた大規模言語モデルフレームワークであるAlmanacを開発した。
5人の医師と医師のパネルで評価された新しい臨床シナリオのデータセットの性能は、事実性の顕著な増加を示している。
論文 参考訳(メタデータ) (2023-03-01T02:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。