論文の概要: Superhuman performance of a large language model on the reasoning tasks of a physician
- arxiv url: http://arxiv.org/abs/2412.10849v1
- Date: Sat, 14 Dec 2024 14:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:59.849425
- Title: Superhuman performance of a large language model on the reasoning tasks of a physician
- Title(参考訳): 医師の推論作業における大規模言語モデルの超人的性能
- Authors: Peter G. Brodeur, Thomas A. Buckley, Zahir Kanjee, Ethan Goh, Evelyn Bin Ling, Priyank Jain, Stephanie Cabral, Raja-Elie Abdulnour, Adrian Haimovich, Jason A. Freed, Andrew Olson, Daniel J. Morgan, Jason Hom, Robert Gallo, Eric Horvitz, Jonathan Chen, Arjun K. Manrai, Adam Rodman,
- Abstract要約: 医療タスクにおける大規模言語モデル(LLM)の性能は、伝統的に複数の選択質問ベンチマークを用いて評価されてきた。
我々はOpenAIのo1-previewモデルを評価する。これは、応答を生成する前に、思考プロセスの連鎖を介して実行時間を向上させるために開発されたモデルである。
- 参考スコア(独自算出の注目度): 10.043418251604624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance of large language models (LLMs) on medical tasks has traditionally been evaluated using multiple choice question benchmarks. However, such benchmarks are highly constrained, saturated with repeated impressive performance by LLMs, and have an unclear relationship to performance in real clinical scenarios. Clinical reasoning, the process by which physicians employ critical thinking to gather and synthesize clinical data to diagnose and manage medical problems, remains an attractive benchmark for model performance. Prior LLMs have shown promise in outperforming clinicians in routine and complex diagnostic scenarios. We sought to evaluate OpenAI's o1-preview model, a model developed to increase run-time via chain of thought processes prior to generating a response. We characterize the performance of o1-preview with five experiments including differential diagnosis generation, display of diagnostic reasoning, triage differential diagnosis, probabilistic reasoning, and management reasoning, adjudicated by physician experts with validated psychometrics. Our primary outcome was comparison of the o1-preview output to identical prior experiments that have historical human controls and benchmarks of previous LLMs. Significant improvements were observed with differential diagnosis generation and quality of diagnostic and management reasoning. No improvements were observed with probabilistic reasoning or triage differential diagnosis. This study highlights o1-preview's ability to perform strongly on tasks that require complex critical thinking such as diagnosis and management while its performance on probabilistic reasoning tasks was similar to past models. New robust benchmarks and scalable evaluation of LLM capabilities compared to human physicians are needed along with trials evaluating AI in real clinical settings.
- Abstract(参考訳): 医療タスクにおける大規模言語モデル(LLM)の性能は、伝統的に複数の選択質問ベンチマークを用いて評価されてきた。
しかし、これらのベンチマークは非常に制約があり、LSMによる繰り返しの印象的な性能に飽和しており、実際の臨床シナリオにおけるパフォーマンスと不明瞭な関係がある。
臨床理由づけは、医師が臨床データを収集・合成して医学的問題を診断・管理するために批判的思考を用いるプロセスであり、モデルパフォーマンスの魅力的なベンチマークである。
以前のLSMでは、日常的および複雑な診断シナリオにおいて、優れた臨床医に期待が持たれている。
そこで我々は,OpenAIのo1-previewモデルを評価することを試みた。
本研究は, 鑑別診断生成, 診断推論の表示, トリアージ差分診断, 確率的推論, 管理推論の5つの実験により, 評価された精神測定値の専門医による評価を行った。
我々の最初の成果は、過去のLLMの人体制御とベンチマークを持つ同じ実験と、o1-preview出力の比較であった。
鑑別診断生成と診断・管理の質に有意な改善が認められた。
確率的推論やトリアージ鑑別診断では改善は認められなかった。
本研究は,従来のモデルと類似した確率論的推論タスクにおいて,診断や管理などの複雑な批判的思考を必要とするタスクに対して,o1-previewが強く機能する能力を強調した。
人間の医師と比較して、新しい堅牢なベンチマークとスケーラブルなLLM能力の評価と、実際の臨床環境でAIを評価するための試行が必要である。
関連論文リスト
- Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Sequential Diagnosis with Language Models [21.22416732642907]
本稿では,304症例を段階的に診断するシークエンシャル診断ベンチマークを紹介する。
成績は、診断精度だけでなく、医師の診察や検査の費用によって評価される。
また,医師のパネルを模擬したモデル診断オーケストレータであるMAI診断オーケストレータ(MAI-DxO)についても紹介する。
論文 参考訳(メタデータ) (2025-06-27T17:27:26Z) - ER-REASON: A Benchmark Dataset for LLM-Based Clinical Reasoning in the Emergency Room [6.910389029249664]
大規模言語モデル (LLMs) は, ライセンス試験に基づく質問応答タスクにおいて, 広範囲に評価されている。
ER-Reason(ER-Reason)は、救急室におけるLSMに基づく臨床推論と意思決定を評価するために設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-05-28T22:43:44Z) - DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models [25.13622249539088]
diagnosisArenaは、専門レベルの診断能力の厳格な評価のために設計されたベンチマークである。
診断アリーナは1,113組のセグメンテーション患者と、28の専門専門医からなる。
我々の研究では、最も先進的な推論モデルであるo3、o1、DeepSeek-R1でさえ、それぞれ51.12%、31.09%、17.79%の精度しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-05-20T09:14:53Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - The Multi-Round Diagnostic RAG Framework for Emulating Clinical Reasoning [10.483453944197407]
現代医学と漢方医学の両方をカバーする知識グラフであるDiagnosGraphを構築した。
口語患者の物語と学術的な医療知識のギャップを埋めるために、DiagnosGraphは1,908ドルの医療記録も導入している。
MRD-RAGがLSMの診断性能を向上させることを実証した。
論文 参考訳(メタデータ) (2025-04-10T13:17:51Z) - AnesBench: Multi-Dimensional Evaluation of LLM Reasoning in Anesthesiology [47.52685298426068]
麻酔学における大規模言語モデル(LLM)の推論能力を体系的に評価した。
AnesBenchは3段階にわたる麻酔学関連推論を評価するために設計された言語間ベンチマークである。
論文 参考訳(メタデータ) (2025-04-03T08:54:23Z) - m1: Unleash the Potential of Test-Time Scaling for Medical Reasoning with Large Language Models [21.849783391186754]
本研究は,医学的推論のためのテストタイムスケーリングとm1の総合的な研究である。
各種医療タスクに対する評価は,テストタイムのスケーリングが医学的推論を継続的に促進することを示す。
データスケールの増加,データ品質の向上,モデル能力の拡大により,医療知識の基盤化が一貫して進んでいることが判明した。
論文 参考訳(メタデータ) (2025-04-01T14:57:43Z) - MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning [34.93995619867384]
LLM(Large Language Models)は、既存の医学的質問応答ベンチマークで素晴らしいパフォーマンスを示している。
MedAgentsBenchは、多段階の臨床推論、診断の定式化、および治療計画シナリオを必要とする医学的問題に焦点を当てたベンチマークである。
論文 参考訳(メタデータ) (2025-03-10T15:38:44Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Improving Interactive Diagnostic Ability of a Large Language Model Agent Through Clinical Experience Learning [17.647875658030006]
本研究では,性能劣化現象の根底にあるメカニズムについて検討する。
我々は,中国とアメリカの医療施設から350万件以上の電子医療記録を活用する,PPME ( Plug-and-play) LLM エージェントを開発した。
本研究は, 初期疾患の診断・調査のための専門モデルを統合し, 指導的, 強化的学習技術を用いて訓練した。
論文 参考訳(メタデータ) (2025-02-24T06:24:20Z) - RuleAlign: Making Large Language Models Better Physicians with Diagnostic Rule Alignment [54.91736546490813]
本稿では,大規模言語モデルと特定の診断規則との整合性を考慮したルールアラインフレームワークを提案する。
患者と医師間の規則に基づくコミュニケーションを含む医療対話データセットを開発した。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T17:44:40Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA [24.10436440624249]
大規模マルチモーダルモデル(LMM)は医療用視覚質問応答(Med-VQA)において顕著な進歩を示した
本研究は, 簡易な探索評価を行う場合, 医学的診断問題に対するランダムな推測よりも, 最先端のモデルの方が悪いことを明らかにした。
論文 参考訳(メタデータ) (2024-05-30T18:56:01Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation
for Automatic Diagnosis [30.943705201552643]
本研究では,潜在的な疾患に対するエージェントの確率分布を適応的に融合させることにより,現実世界の診断過程をモデル化する枠組みを提案する。
提案手法では,パラメータ更新とトレーニング時間を大幅に短縮し,効率と実用性を向上する。
論文 参考訳(メタデータ) (2024-01-29T12:25:30Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - Towards Accurate Differential Diagnosis with Large Language Models [37.48155380562073]
LLM(Large Language Models)を利用した対話型インタフェースは、差分診断の側面をアシストし、自動化する新たな機会を提供する。
20人の臨床医が、ニューイングランド・ジャーナル・オブ・メディカル(New England Journal of Medicine)から入手した、302の挑戦的な現実世界の医療事例を評価した。
我々のLSMは,難治性症例の診断的推論と精度を向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-30T19:55:51Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - DR.BENCH: Diagnostic Reasoning Benchmark for Clinical Natural Language
Processing [5.022185333260402]
診断推論ベンチマーク(DR.BENCH)は臨床診断推論能力を持つcNLPモデルの開発と評価のための新しいベンチマークである。
DR.BENCHは、訓練済みの言語モデルを評価するための自然言語生成フレームワークとして設計された最初の臨床スイートである。
論文 参考訳(メタデータ) (2022-09-29T16:05:53Z) - Semi-Supervised Variational Reasoning for Medical Dialogue Generation [70.838542865384]
医療対話生成には,患者の状態と医師の行動の2つの重要な特徴がある。
医療対話生成のためのエンドツーエンドの変分推論手法を提案する。
行動分類器と2つの推論検出器から構成される医師政策ネットワークは、拡張推論能力のために提案される。
論文 参考訳(メタデータ) (2021-05-13T04:14:35Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。