論文の概要: Large language models for automated PRISMA 2020 adherence checking
- arxiv url: http://arxiv.org/abs/2511.16707v1
- Date: Thu, 20 Nov 2025 02:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.764022
- Title: Large language models for automated PRISMA 2020 adherence checking
- Title(参考訳): PRISMA 2020アテンデンス自動チェックのための大規模言語モデル
- Authors: Yuki Kataoka, Ryuhei So, Masahiro Banno, Yasushi Tsujimoto, Tomohiro Takayama, Yosuke Yamagishi, Takahiro Tsuge, Norio Yamamoto, Chiaki Suda, Toshi A. Furukawa,
- Abstract要約: 著作権を意識した108のCreative Commonsライセンスのシステムレビューのベンチマークを構築した。
5種類の入力形式で10大言語モデル(LLM)を評価した。
- 参考スコア(独自算出の注目度): 0.01588808390680495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluating adherence to PRISMA 2020 guideline remains a burden in the peer review process. To address the lack of shareable benchmarks, we constructed a copyright-aware benchmark of 108 Creative Commons-licensed systematic reviews and evaluated ten large language models (LLMs) across five input formats. In a development cohort, supplying structured PRISMA 2020 checklists (Markdown, JSON, XML, or plain text) yielded 78.7-79.7% accuracy versus 45.21% for manuscript-only input (p less than 0.0001), with no differences between structured formats (p>0.9). Across models, accuracy ranged from 70.6-82.8% with distinct sensitivity-specificity trade-offs, replicated in an independent validation cohort. We then selected Qwen3-Max (a high-sensitivity open-weight model) and extended evaluation to the full dataset (n=120), achieving 95.1% sensitivity and 49.3% specificity. Structured checklist provision substantially improves LLM-based PRISMA assessment, though human expert verification remains essential before editorial decisions.
- Abstract(参考訳): PRISMA 2020ガイドラインの遵守を評価することは、ピアレビュープロセスにおいて依然として負担となっている。
共有可能なベンチマークの欠如に対処するため,Creative Commonsがライセンスするシステムレビュー108の著作権を意識したベンチマークを構築し,5種類の入力フォーマットで10の大規模言語モデル(LLM)を評価した。
開発コホートでは、構造化されたPRISMA 2020チェックリスト(Markdown、JSON、XML、プレーンテキスト)を提供すると、78.7-79.7%の精度が得られたが、原稿のみの入力では45.21%(pは0.0001未満)で、構造化フォーマットの違いはない(p>0.9)。
精度は70.6-82.8%であり、感度特異性のトレードオフは独立の検証コホートで再現された。
次に、Qwen3-Max(高感度オープンウェイトモデル)を選択し、完全なデータセット(n=120)に拡張して95.1%の感度と49.3%の特異性を達成した。
構造化チェックリストは、LLMベースのPRISMAアセスメントを大幅に改善するが、人間の専門家による検証は、編集決定の前に必須である。
関連論文リスト
- Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - The Digital Sous Chef -- A Comparative Study on Fine-Tuning Language Models for Recipe Generation [2.497854684676663]
本稿では,GPT-2大モデル(774M)とGPT-2小モデル(124M)と,RecipeDB 5-cuisineコーパス上の従来のLSTM/RNNベースラインとを比較検討した。
キーとなるコントリビューションは、23個の共通分数トークンとカスタム構造マーカーで語彙を拡大するトークン化戦略です。
論文 参考訳(メタデータ) (2025-08-20T13:53:13Z) - ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences via Tournament Graph Reconstruction [25.85736569130897]
大規模言語モデル(LLM)のペアワイズ評価は、オープンエンドタスクのベンチマークにおいて支配的なパラダイムとなっている。
この重要な問題は、本質的に曖昧な選好ペアを含む低品質データに起因していることを示す。
トーナメントグラフとしてペアの選好をモデル化する,原則付きグラフ理論フレームワークであるESSPRを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:00:03Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。
これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文 参考訳(メタデータ) (2024-10-28T15:33:37Z) - Beyond Accuracy: Automated De-Identification of Large Real-World
Clinical Text Datasets [7.6631083158336715]
本稿では,10億以上の臨床論文を識別するシステムの構築から学んだ教訓を要約する。
完全に自動化されたソリューションでは、手作業によるレビューを必要としない、非常に高いレベルの精度が必要です。
論文 参考訳(メタデータ) (2023-12-13T20:15:29Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。