論文の概要: LLM-Assisted Abstract Screening with OLIVER: Evaluating Calibration and Single-Model vs. Actor-Critic Configurations in Literature Reviews
- arxiv url: http://arxiv.org/abs/2512.20022v1
- Date: Tue, 23 Dec 2025 03:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.733298
- Title: LLM-Assisted Abstract Screening with OLIVER: Evaluating Calibration and Single-Model vs. Actor-Critic Configurations in Literature Reviews
- Title(参考訳): LLM-Assisted Abstract Screening with OLIVER:Evaluating Calibration and Single-Model vs. Actor-Critic Configurations in Literature Reviews
- Authors: Kian Godhwani, David Benrimoh,
- Abstract要約: 我々は,OLIVER (d LLM-based Inclusion and Vetting Engine for Reviews) を開発した。
我々は,2つの非Cochraneの体系的レビューにおいて,複数の現代LPMを評価し,全文スクリーニングと最終包摂段階の両方で性能を評価した。
アクター・クリティック・スクリーニングでは判別が改善し、両方のレビューで校正誤差が著しく低減され、より高いAUCが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction: Recent work suggests large language models (LLMs) can accelerate screening, but prior evaluations focus on earlier LLMs, standardized Cochrane reviews, single-model setups, and accuracy as the primary metric, leaving generalizability, configuration effects, and calibration largely unexamined. Methods: We developed OLIVER (Optimized LLM-based Inclusion and Vetting Engine for Reviews), an open-source pipeline for LLM-assisted abstract screening. We evaluated multiple contemporary LLMs across two non-Cochrane systematic reviews and performance was assessed at both the full-text screening and final inclusion stages using accuracy, AUC, and calibration metrics. We further tested an actor-critic screening framework combining two lightweight models under three aggregation rules. Results: Across individual models, performance varied widely. In the smaller Review 1 (821 abstracts, 63 final includes), several models achieved high sensitivity for final includes but at the cost of substantial false positives and poor calibration. In the larger Review 2 (7741 abstracts, 71 final includes), most models were highly specific but struggled to recover true includes, with prompt design influencing recall. Calibration was consistently weak across single-model configurations despite high overall accuracy. Actor-critic screening improved discrimination and markedly reduced calibration error in both reviews, yielding higher AUCs. Discussion: LLMs may eventually accelerate abstract screening, but single-model performance is highly sensitive to review characteristics, prompting, and calibration is limited. An actor-critic framework improves classification quality and confidence reliability while remaining computationally efficient, enabling large-scale screening at low cost.
- Abstract(参考訳): 紹介:最近の研究は、大きな言語モデル(LLM)がスクリーニングを加速できることを示しているが、以前の評価では、以前のLCM、標準化されたコクランレビュー、単一モデルのセットアップ、精度が主要な指標であり、一般化可能性、構成効果、キャリブレーションはほとんど検討されていない。
Methods: We developed OLIVER (Optimized LLM-based Inclusion and Vetting Engine for Reviews), a open-source pipeline for LLM-assisted abstract screening。
我々は,2つの非コクランの体系的レビューにおいて,複数の現代LPMを評価し,精度,AUC,キャリブレーションの指標を用いて,全文スクリーニングと最終包含段階の両方で性能を評価した。
さらに,3つのアグリゲーションルールの下で2つの軽量モデルを組み合わせたアクタ批判スクリーニングフレームワークを検証した。
結果: 個々のモデル全体で, 性能は様々であった。
より小さなレビュー1(821の要約、63のファイナルを含む)では、いくつかのモデルが最終版に対して高い感度を達成したが、かなりの偽陽性とキャリブレーションのコストがかかる。
より大型のレビュー2(7741の要約、71のファイナルを含む)では、ほとんどのモデルは非常に具体的だったが、真の回復に苦慮し、即座に設計がリコールに影響を及ぼした。
キャリブレーションは、全体的な精度が高いにもかかわらず、シングルモデル構成で一貫して弱かった。
アクター・クリティック・スクリーニングでは判別が改善し、両方のレビューで校正誤差が著しく低減され、より高いAUCが得られた。
議論: LLMは最終的には抽象的なスクリーニングを加速するかもしれないが、単一モデルの性能はレビュー特性に非常に敏感であり、プロンプト、キャリブレーションは限られている。
アクタクリティカルなフレームワークは、計算効率を保ちながら、分類品質と信頼性を改善し、大規模スクリーニングを低コストで実現する。
関連論文リスト
- DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。
Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文 参考訳(メタデータ) (2025-05-01T17:03:17Z) - Influences on LLM Calibration: A Study of Response Agreement, Loss Functions, and Prompt Styles [4.477423478591491]
Calib-nは、信頼度推定のための補助モデルをトレーニングする新しいフレームワークである。
補助的なモデルベース手法では,数発のプロンプトが最も有効であることが判明した。
論文 参考訳(メタデータ) (2025-01-07T18:48:42Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - LitCab: Lightweight Language Model Calibration over Short- and Long-form
Responses [14.77013588561901]
本稿では,入力テキストの表現とバイアス項の予測を行う単一線形層からなる軽量キャリブレーション機構LitCabを提案する。
評価のために、8つのテキスト生成タスクからなるベンチマークであるCaTを構築し、短いフレーズから段落までの応答をカバーする。
Llama2-7BでLitCabをテストし、すべてのタスクのキャリブレーションを改善し、平均ECEスコアを最大30%削減する。
論文 参考訳(メタデータ) (2023-10-30T00:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。