論文の概要: GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians
- arxiv url: http://arxiv.org/abs/2510.13734v1
- Date: Wed, 15 Oct 2025 16:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.765294
- Title: GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians
- Title(参考訳): GAPS:AI臨床医を評価するための臨床応用自動ベンチマーク
- Authors: Xiuyuan Chen, Tao Sun, Dexin Su, Ailing Yu, Junwei Liu, Zhe Chen, Gangzeng Jin, Xin Wang, Jingnan Liu, Hansong Xiao, Hualei Zhou, Dongjie Tao, Chunxiao Guo, Minghui Yang, Yuan Xia, Jing Zhao, Qianrui Fan, Yanyun Wang, Shuai Zhen, Kezhong Chen, Jun Wang, Zewen Sun, Heng Zhao, Tian Guan, Shaodong Wang, Geyun Chang, Jiaming Deng, Hongchengcheng Chen, Kexin Feng, Ruzhen Li, Jiayi Geng, Changtai Zhao, Jun Wang, Guihu Lin, Peihao Li, Liqi Liu, Peng Wei, Jian Wang, Jinjie Gu, Ping Wang, Fan Yang,
- Abstract要約: AI臨床システムの現在のベンチマークは、実際の臨床実践に必要な深さ、堅牢性、安全性を捉えていない。
本稿では, GAPSフレームワーク, textbfGrounding (認識深度), textbfAdequacy (回答完全性), textbfPerturbation (損耗性), textbfSafetyを提案する。
GAPS準拠のベンチマークをエンドツーエンドに構築するための,完全自動化されたガイドライン変換パイプラインを開発した。
- 参考スコア(独自算出の注目度): 32.33432636089606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current benchmarks for AI clinician systems, often based on multiple-choice exams or manual rubrics, fail to capture the depth, robustness, and safety required for real-world clinical practice. To address this, we introduce the GAPS framework, a multidimensional paradigm for evaluating \textbf{G}rounding (cognitive depth), \textbf{A}dequacy (answer completeness), \textbf{P}erturbation (robustness), and \textbf{S}afety. Critically, we developed a fully automated, guideline-anchored pipeline to construct a GAPS-aligned benchmark end-to-end, overcoming the scalability and subjectivity limitations of prior work. Our pipeline assembles an evidence neighborhood, creates dual graph and tree representations, and automatically generates questions across G-levels. Rubrics are synthesized by a DeepResearch agent that mimics GRADE-consistent, PICO-driven evidence review in a ReAct loop. Scoring is performed by an ensemble of large language model (LLM) judges. Validation confirmed our automated questions are high-quality and align with clinician judgment. Evaluating state-of-the-art models on the benchmark revealed key failure modes: performance degrades sharply with increased reasoning depth (G-axis), models struggle with answer completeness (A-axis), and they are highly vulnerable to adversarial perturbations (P-axis) as well as certain safety issues (S-axis). This automated, clinically-grounded approach provides a reproducible and scalable method for rigorously evaluating AI clinician systems and guiding their development toward safer, more reliable clinical practice.
- Abstract(参考訳): AI臨床システムの現在のベンチマークは、多くの場合、複数の選択試験や手動ルーリックに基づいており、実際の臨床実践に必要な深さ、堅牢性、安全性を捉えていない。
これを解決するために、GAPSフレームワーク、つまり、認識深度(認識深度)、問合せ完全度(問合せ完全度)、問合せ乱れ(解答完全度)、問合せ不完全度(解答完全度)、問合せ不完全度(解答完全度)、問合せ不完全度(解答完全度)の評価のための多次元パラダイムである。
批判的に我々は,GAPSに準拠したベンチマークをエンドツーエンドに構築する,完全に自動化されたガイドライン型パイプラインを開発し,事前作業のスケーラビリティと主観性に限界を克服した。
我々のパイプラインはエビデンス地区を組み立て、二重グラフとツリー表現を作成し、Gレベルにまたがる質問を自動的に生成する。
ゴムは、GRADE-consistent、PICO-driven evidence reviewをReActループで模倣するDeepResearchエージェントによって合成される。
スコアリングは、大きな言語モデル(LLM)の裁判官のアンサンブルによって実行される。
検証の結果, 自動質問は高品質であり, 臨床医の判断と一致していることがわかった。
性能は、推論深度(G軸)の増加とともに急激に低下し、解答完全性(A軸)に苦しむモデルであり、敵の摂動(P軸)や特定の安全問題(S軸)に対して非常に脆弱である。
この自動化された臨床現場のアプローチは、AIクリニックシステムを厳格に評価し、より安全で信頼性の高い臨床実践に向けた開発を導く、再現可能でスケーラブルな方法を提供する。
関連論文リスト
- Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Automated Clinical Problem Detection from SOAP Notes using a Collaborative Multi-Agent LLM Architecture [8.072932739333309]
我々は,このギャップに対処するために,臨床相談チームをモデル化する共同マルチエージェントシステム(MAS)を導入する。
このシステムは、SOAPノートの主観的(S)および目的的(O)セクションのみを分析することによって、臨床上の問題を特定する。
マネージャエージェントは、階層的で反復的な議論に従事し、合意に達するために、動的に割り当てられた専門家エージェントのチームを編成する。
論文 参考訳(メタデータ) (2025-08-29T17:31:24Z) - CyberRAG: An Agentic RAG cyber attack classification and reporting tool [0.3914676152740142]
CyberRAGはモジュール型のエージェントベースのRAGフレームワークで、サイバー攻撃のリアルタイム分類、説明、構造化レポートを提供する。
従来のRAGとは異なり、CyberRAGは動的制御フローと適応推論を可能にするエージェント設計を採用している。
論文 参考訳(メタデータ) (2025-07-03T08:32:19Z) - The Great Nugget Recall: Automating Fact Extraction and RAG Evaluation with Large Language Models [53.12387628636912]
本稿では,人間のアノテーションに対して評価を行う自動評価フレームワークを提案する。
この手法は2003年にTREC Question Answering (QA) Trackのために開発された。
完全自動ナゲット評価から得られるスコアと人間に基づく変種とのランニングレベルでの強い一致を観察する。
論文 参考訳(メタデータ) (2025-04-21T12:55:06Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Efficient Lung Ultrasound Severity Scoring Using Dedicated Feature Extractor [12.280417624228544]
MeDiVLADは多レベル肺超音波検査のための新しいパイプラインである。
我々は、自己知識蒸留を利用して、ラベルや集合フレームレベルの特徴を伴わずに視覚変換器(ViT)を事前訓練する。
最小限の微調整により、MeDiVLADはフレームレベルおよびビデオレベルのスコアリングにおいて従来の完全教師付き手法よりも優れることを示す。
論文 参考訳(メタデータ) (2025-01-21T22:28:22Z) - ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems [0.0]
大言語モデル (LLMs) は, 臨床質問応答において有意な潜在性を示した。
RAGは、モデル応答の事実的正確性を保証するための主要なアプローチとして現れています。
現在のRAG自動測定は、臨床および会話のユースケースでは不十分である。
論文 参考訳(メタデータ) (2025-01-14T15:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。