論文の概要: Evaluating the Ability of Large Language Models to Identify Adherence to CONSORT Reporting Guidelines in Randomized Controlled Trials: A Methodological Evaluation Study
- arxiv url: http://arxiv.org/abs/2511.13107v1
- Date: Mon, 17 Nov 2025 08:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.983245
- Title: Evaluating the Ability of Large Language Models to Identify Adherence to CONSORT Reporting Guidelines in Randomized Controlled Trials: A Methodological Evaluation Study
- Title(参考訳): ランダム化試験におけるConSORT報告ガイドラインの適合性を同定する大規模言語モデルの能力評価 : 方法論的評価
- Authors: Zhichao He, Mouxiao Bian, Jianhong Zhu, Jiayuan Chen, Yunqiu Wang, Wenxia Zhao, Tianbin Li, Bing Han, Jie Xu, Junyan Wu,
- Abstract要約: 本研究は,現代LPMの精度と信頼性を評価することを目的とした。
各種医療専門分野にまたがる150個のRCTの黄金標準データセットを構築した。
トップパフォーマンスモデルであるGemini-2.5-FlashとDeepSeek-R1は、それぞれ0.280と0.282のコーエンのカッパ係数の0.634とほぼ同じマクロF1スコアを達成した。
- 参考スコア(独自算出の注目度): 7.142913983218931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Consolidated Standards of Reporting Trials statement is the global benchmark for transparent and high-quality reporting of randomized controlled trials. Manual verification of CONSORT adherence is a laborious, time-intensive process that constitutes a significant bottleneck in peer review and evidence synthesis. This study aimed to systematically evaluate the accuracy and reliability of contemporary LLMs in identifying the adherence of published RCTs to the CONSORT 2010 statement under a zero-shot setting. We constructed a golden standard dataset of 150 published RCTs spanning diverse medical specialties. The primary outcome was the macro-averaged F1-score for the three-class classification task, supplemented by item-wise performance metrics and qualitative error analysis. Overall model performance was modest. The top-performing models, Gemini-2.5-Flash and DeepSeek-R1, achieved nearly identical macro F1 scores of 0.634 and Cohen's Kappa coefficients of 0.280 and 0.282, respectively, indicating only fair agreement with expert consensus. A striking performance disparity was observed across classes: while most models could identify compliant items with high accuracy (F1 score > 0.850), they struggled profoundly with identifying non-compliant and not applicable items, where F1 scores rarely exceeded 0.400. Notably, some high-profile models like GPT-4o underperformed, achieving a macro F1-score of only 0.521. LLMs show potential as preliminary screening assistants for CONSORT checks, capably identifying well-reported items. However, their current inability to reliably detect reporting omissions or methodological flaws makes them unsuitable for replacing human expertise in the critical appraisal of trial quality.
- Abstract(参考訳): Consolidated Standards of Reporting Trials文は、ランダム化比較試験の透明で高品質なレポートのグローバルベンチマークである。
手動によるCONSORTの付着性の検証は、ピアレビューとエビデンス合成において重要なボトルネックとなる、退屈で時間を要するプロセスである。
本研究の目的は, ゼロショット設定下でのConSORT 2010 文への RCT の付着性を同定する上で, 現代の LLM の精度と信頼性を体系的に評価することである。
各種医療専門分野にまたがる150個のRCTの黄金標準データセットを構築した。
一番の成果は、3クラス分類タスクに対するマクロ平均F1スコアであり、項目単位のパフォーマンス指標と定性的エラー分析によって補足された。
全体的なモデル性能は控えめだった。
トップパフォーマンスモデルであるGemini-2.5-FlashとDeepSeek-R1は、それぞれ0.280と0.282のコーエンのカッパ係数の0.634とほぼ同じマクロF1スコアを達成した。
多くのモデルは高い精度で適合品を識別できる(F1スコア > 0.850)が、F1スコアが0.400を超えることはめったにない。
特に、GPT-4oのような著名なモデルでは性能が劣り、F1スコアは0.521しか得られなかった。
LLMはCONSORTチェックのための予備スクリーニングアシスタントとして可能性を示し、報告されたアイテムを確実に識別する。
しかしながら、報告の欠落や方法論上の欠陥を確実に検出できない現在の状況は、試験品質のクリティカルな評価において、人間の専門知識を置き換えるのに不適当である。
関連論文リスト
- Order from Chaos: Comparative Study of Ten Leading LLMs on Unstructured Data Categorization [0.0]
本研究では,非構造化テキスト分類に適用された10種類の最先端大規模言語モデル(LLM)の比較評価を行った。
この分析では、8,660人の注釈付きサンプルと同一のゼロショットプロンプトの統一データセットを使用して、すべてのモデルにおける方法論的一貫性を確保した。
その結果,現代LLMは,平均スコアが34%,精度が42%,リコールが45%,F1スコアが41%であった。
論文 参考訳(メタデータ) (2025-10-14T02:15:01Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Assessing the Reliability of Large Language Models for Deductive Qualitative Coding: A Comparative Study of ChatGPT Interventions [0.0]
本研究では,構造化定性符号化における大規模言語モデル (LLM) の利用について検討する。
我々は合衆国最高裁判所の判例を21の政策領域に分類した。
ChatGPTは、低支持サブクラスにおける高いF1スコアを含む、サンプル間で安定した一致を示した。
論文 参考訳(メタデータ) (2025-07-18T22:16:04Z) - Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs) [0.5434005537854512]
本研究では、MIRS(Master Interview Rating Scale)を用いたOSCE評価自動化のための大規模言語モデル(LLM)の可能性について検討した。
ゼロショット,チェーン・オブ・シント(CoT),少数ショット,マルチステッププロンプトの条件下で,MIRSの28項目すべてにまたがるOSCE書き起こしの評価において,最先端の4つのLCMの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T04:05:45Z) - Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。