論文の概要: AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making
- arxiv url: http://arxiv.org/abs/2606.03198v1
- Date: Tue, 02 Jun 2026 05:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.791641
- Title: AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making
- Title(参考訳): 臨床診断におけるスコーリングプロトコルに依存したAIラター識別
- Authors: Sangwon Baek, Kyu Yeon Hur, Kyunga Kim,
- Abstract要約: 臨床AI評価は、AIレーダとして機能する大規模言語モデル(LLM)にスコアを委譲する傾向が強まっている。
成人2型糖尿病に対する12カ月の外来経過観察におけるAIレートラー行動の検討
あらゆる質問に対して、AIレーナーは、非常に狭い範囲で一貫して高いスコアを獲得しました。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical AI evaluation increasingly delegates scoring to large language models (LLMs) acting as AI raters, yet their scoring behavior across evaluation conditions has not been quantitatively characterized. We address this gap through a factorial study of AI rater behavior in adult type 2 diabetes (T2D) pharmacotherapy at 12-month outpatient follow-up, a clinical task involving complex decision-making operationalized across seven evaluation questions. Four open-source LLMs served simultaneously as clinical decision support system (CDSS) models and AI raters. Each CDSS output was scored under two scoring protocols: a rubric-anchored Gold Rubric (GR) protocol incorporating a patient-specific rubric, and a rubric-free Non Gold Rubric (Non-GR) protocol. Linear mixed effects models crossed the scoring protocol factor with five design factors -- CDSS model, CDSS prompt configuration (document-referenced generation [DRG] vs.\ Baseline), rater model, prompt character, and prompt type -- and estimated main effects together with their protocol interactions. Across all questions, AI raters yielded consistently higher scores within a very narrow range (74--78 points on average) under Non-GR compared to those under GR (7.69 to 49.64 points lower mean scores; 1.68 to 3.67 times wider interquartile ranges). Within each question, GR amplified the AI rater's discrimination between DRG and Baseline CDSS outputs by factors of 1.76 to 5.10, while also revealing substantial behavioral variation across rater models that Non-GR suppressed. These findings support rubric anchoring as the scoring protocol that preserves discriminative power in clinical AI evaluation; rubric-free scoring cannot substitute when questions require patient-specific or jurisdiction-specific criteria that rater models cannot infer from parametric knowledge alone.
- Abstract(参考訳): 臨床AI評価は、AIレーダとして機能する大規模言語モデル(LLM)にスコアを委譲する傾向にあるが、評価条件を越えたスコアの挙動は定量的に評価されていない。
成人2型糖尿病(T2D)に対する12カ月の外来治療におけるAIレーダ行動の因子的検討を通じて,このギャップに対処する。
4つのオープンソースのLCMが同時に、臨床意思決定支援システム(CDSS)モデルとAIレーダとして機能した。
各CDSS出力は、患者固有のルーブリックを含むルーブリックアンコールゴールドルーブリック(GR)プロトコルと、ルーブリックフリー非ゴールドルーブリック(Non-GR)プロトコルの2つのスコアリングプロトコルで評価された。
線形混合効果モデルは,CDSSモデル,CDSSプロンプト構成(文書参照生成 [DRG] 対。
レーダモデル、プロンプトキャラクタ、プロンプトタイプ -- 、プロトコルの相互作用とともに主要な効果を推定する。すべての質問に対して、AIレーダはGR未満のスコア(7.69から49.64ポイント、より広い平均スコアの1.68から3.67倍)に比べて、Non-GR未満の非常に狭い範囲(平均74~78ポイント)で一貫して高いスコアを得た。
各質問では、GRはDRGとベースラインCDSSの出力を1.76から5.10の因子でAIレーダの識別を増幅し、Non-GRが抑制したレーダモデル間でのかなりの振る舞いの変化を明らかにした。
これらの知見は、臨床AI評価における識別力を維持するためのスコアリングプロトコルとしてルーブリックアンカーをサポートし、レーダモデルがパラメトリック知識のみから推測できない患者固有の基準または管轄的な基準を必要とする場合、ルーブリックフリースコアは代用できない。
関連論文リスト
- ChronoMedicalWorld: A Medical World Model for Learning Patient Trajectories from Longitudinal Care Data [1.995753801570114]
縦断的ケアデータから患者の軌跡を学習するための行動条件付き潜在世界モデルフレームワークを提案する。
慢性腎疾患(CKD)における年間推定糸球体濾過率(eGFR)トラジェクトリー予測のためのCMWMのインスタンス化
CKD固有のアーキテクチャ、損失設計、トレーニングプロトコルは、構造的および会話的介入によってインターリーブされた定期的な臨床状態としてキャストできるあらゆる慢性状態に適用できる。
論文 参考訳(メタデータ) (2026-05-21T03:50:17Z) - Case-Specific Rubrics for Clinical AI Evaluation: Methodology, Validation, and LLM-Clinician Agreement Across 823 Encounters [3.018184429993625]
スコアリングインスタンス毎のエキスパートレビューを必要とするメソッドは、安全で反復的なデプロイメントには遅すぎるし、コストも高くつく。
20人の臨床医が、プライマリケア、精神医学、腫瘍学、行動保健の823の患者に1,646個のルーブリックを作成した。
ケース固有のルーリックは、専門家の判断を維持しながら3桁のコストで自動化を可能にする、臨床AI評価のためのパスを提供する。
論文 参考訳(メタデータ) (2026-04-27T17:17:56Z) - AD-CARE: A Guideline-grounded, Modality-agnostic LLM Agent for Real-world Alzheimer's Disease Diagnosis with Multi-cohort Assessment, Fairness Analysis, and Reader Study [45.632341143278886]
不完全で不均一な入力からガイドラインに基づく診断を行うモダリティ診断剤であるAD-CAREを導入する。
専門的な診断ツールを動的にオーケストレーションすることにより、AD-CAREは実際の臨床出力と整合した透明なレポートスタイルのアウトプットを生成する。
論文 参考訳(メタデータ) (2026-03-26T11:10:01Z) - Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。
我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。
ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文 参考訳(メタデータ) (2026-03-18T06:15:35Z) - CPGPrompt: Translating Clinical Guidelines into LLM-Executable Decision Support [18.887576751340884]
物語臨床ガイドラインを大規模言語モデル(LLM)に変換する自動プロンプトシステムであるCPGPromptを開発し,検証する。
本フレームワークはCDGを構造化決定木に翻訳し,LLMを用いて患者ケース評価に動的にナビゲートする。
システム性能は、二項特殊参照決定ときめ細かい経路分類タスクの両方で評価された。
論文 参考訳(メタデータ) (2026-01-07T00:05:42Z) - DermaVQA-DAS: Dermatology Assessment Schema (DAS) & Datasets for Closed-Ended Question Answering & Segmentation in Patient-Generated Dermatology Images [11.643416771577174]
DermaVQA-DASはDrmaVQAデータセットの拡張であり、クローズドエンド質問応答(QA)と皮膚病巣のセグメンテーションをサポートする。
DASには、36のハイレベルと27のきめ細かい評価質問があり、英語と中国語で複数の選択肢がある。
閉じたQAでは、全体的な性能はモデル全体で強く、平均的な精度は0.729から0.798である。
論文 参考訳(メタデータ) (2025-12-30T16:48:20Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - A Locally Executable AI System for Improving Preoperative Patient Communication: A Multi-Domain Clinical Evaluation [1.9205944025326396]
LENOHAは、入力を高精度な文変換器の制約でルーティングする安全第一のローカルファーストシステムである。
臨床問合せのために、クリニカルカレーションされたFAQから口頭で回答を返す。
エネルギー検定の結果,1回の入力で1.0 mWh,小語で168 mWhの応答で1回の応答で1.0 mWhを消費することがわかった。
論文 参考訳(メタデータ) (2025-10-02T04:53:11Z) - Design and Validation of a Responsible Artificial Intelligence-based System for the Referral of Diabetic Retinopathy Patients [65.57160385098935]
糖尿病網膜症の早期発見は、視力喪失のリスクを最大95%減少させる可能性がある。
我々は、AIライフサイクル全体にわたる倫理的原則を取り入れた、DRスクリーニングのための責任あるAIシステムであるRAIS-DRを開発した。
当科におけるRAIS-DRをFDA認可のEyeArtシステムと比較した。
論文 参考訳(メタデータ) (2025-08-17T21:54:11Z) - Performance of Dual-Augmented Lagrangian Method and Common Spatial
Patterns applied in classification of Motor-Imagery BCI [68.8204255655161]
運動画像に基づく脳-コンピュータインタフェース(MI-BCI)は、神経リハビリテーションのための画期的な技術になる可能性がある。
使用する脳波信号のノイズの性質のため、信頼性の高いBCIシステムは特徴の最適化と抽出のために特別な手順を必要とする。
論文 参考訳(メタデータ) (2020-10-13T20:50:13Z) - COMPOSE: Cross-Modal Pseudo-Siamese Network for Patient Trial Matching [70.08786840301435]
本稿では, CrOss-Modal PseudO-SiamEse Network (COMPOSE) を提案する。
実験の結果,患者基準マッチングでは98.0%,患者基準マッチングでは83.7%の精度でAUCに到達できることがわかった。
論文 参考訳(メタデータ) (2020-06-15T21:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。