論文の概要: Evaluating Medical LLMs by Levels of Autonomy: A Survey Moving from Benchmarks to Applications
- arxiv url: http://arxiv.org/abs/2510.17764v1
- Date: Mon, 20 Oct 2025 17:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.136057
- Title: Evaluating Medical LLMs by Levels of Autonomy: A Survey Moving from Benchmarks to Applications
- Title(参考訳): 医療用LDMの自律性レベルによる評価:ベンチマークから応用へ
- Authors: Xiao Ye, Jacob Dineen, Zhaonan Li, Zhikun Xu, Weiyu Chen, Shijie Lu, Yuxi Huang, Ming Shen, Phu Tran, Ji-Eun Irene Yum, Muhammad Ali Khan, Muhammad Umar Afzal, Irbaz Bin Riaz, Ben Zhou,
- Abstract要約: 自律度レンズ(L0-L3)による評価の再検討
既存のベンチマークとメトリクスを、各レベルで許容されるアクションとその関連するリスクと整合させ、評価対象を明確にします。
- 参考スコア(独自算出の注目度): 14.979261906851036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Large language models achieve strong scores on standard benchmarks; however, the transfer of those results to safe and reliable performance in clinical workflows remains a challenge. This survey reframes evaluation through a levels-of-autonomy lens (L0-L3), spanning informational tools, information transformation and aggregation, decision support, and supervised agents. We align existing benchmarks and metrics with the actions permitted at each level and their associated risks, making the evaluation targets explicit. This motivates a level-conditioned blueprint for selecting metrics, assembling evidence, and reporting claims, alongside directions that link evaluation to oversight. By centering autonomy, the survey moves the field beyond score-based claims toward credible, risk-aware evidence for real clinical use.
- Abstract(参考訳): 医療用大規模言語モデルは標準ベンチマークで高いスコアを得るが、これらの結果が臨床ワークフローにおける安全で信頼性の高いパフォーマンスに転送されることは依然として課題である。
この調査は、情報ツール、情報変換と集約、意思決定支援、監視エージェントを対象とする、レベル・オブ・オートノミーレンズ(L0-L3)による評価を再編成する。
既存のベンチマークとメトリクスを、各レベルで許容されるアクションとその関連するリスクと整合させ、評価対象を明確にします。
これは、メトリクスを選択し、証拠を組み立て、報告するクレームを報告するためのレベル条件の青写真と、評価を監視にリンクする方向を動機付けている。
自律性に集中することにより、調査はスコアベースの主張を越えて、実際の臨床使用に対する信頼性があり、リスクを意識した証拠へと領域を移動させる。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - MedRepBench: A Comprehensive Benchmark for Medical Report Interpretation [2.3251933592942247]
私たちはMedRepBenchを紹介します。MedRepBenchは、1,900の特定されていない現実の中国の医療レポートから構築された総合的なベンチマークです。
このベンチマークは主に、構造化された医療報告理解のためのエンドツーエンドのVLMを評価するために設計されている。
また、OCR+LLMパイプラインは、高いパフォーマンスにもかかわらず、レイアウトのブラインドネスとレイテンシの問題に悩まされていることも観察した。
論文 参考訳(メタデータ) (2025-08-21T07:52:45Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models [46.81512544528928]
MedCheckは、医療ベンチマーク用に設計された最初のライフサイクル指向アセスメントフレームワークである。
我々のフレームワークは、設計からガバナンスまで、ベンチマークの開発を5つの連続的な段階に分解し、46の医学的基準の包括的なチェックリストを提供する。
本分析では,臨床実践からの深い切り離し,無害な汚染リスクによるデータの整合性の危機,モデルロバスト性や不確実性認識といった安全クリティカルな評価の側面を体系的に無視することなど,全身的な問題を明らかにする。
論文 参考訳(メタデータ) (2025-08-06T11:11:40Z) - Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Named Clinical Entity Recognition Benchmark [2.9332007863461893]
本報告では, 名前付き臨床エンティティ認識ベンチマークを紹介する。
臨床物語から構造化された情報を抽出する重要な自然言語処理(NLP)タスクに対処する。
リーダーボードは多様な言語モデルを評価するための標準化されたプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-10-07T14:00:18Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。