論文の概要: LLM4SCREENLIT: Recommendations on Assessing the Performance of Large Language Models for Screening Literature in Systematic Reviews
- arxiv url: http://arxiv.org/abs/2511.12635v1
- Date: Sun, 16 Nov 2025 15:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.418613
- Title: LLM4SCREENLIT: Recommendations on Assessing the Performance of Large Language Models for Screening Literature in Systematic Reviews
- Title(参考訳): LLM4SCREENLIT:システムレビューにおける大規模言語モデルの性能評価に関する勧告
- Authors: Lech Madeyski, Barbara Kitchenham, Martin Shepperd,
- Abstract要約: 我々は、系統的なレビューにおいて、関連する文献を特定するために、Gen-AIツールのパフォーマンスを評価するために伝統的なメトリクスを使用する際の問題を特定する。
主な弱点は、不均衡なデータに対して堅牢で、結果が偶然よりも優れているかどうかを直接示さないメトリクスを使用できないことであった。
ポジティブな面では、研究者や実践者や政策立案者に対する勧告が構築される優れた(評価)プラクティスを抽出する。
- 参考スコア(独自算出の注目度): 2.2175470459999636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Large language models (LLMs) are released faster than users' ability to evaluate them rigorously. When LLMs underpin research, such as identifying relevant literature for systematic reviews (SRs), robust empirical assessment is essential. Objective: We identify and discuss key challenges in assessing LLM performance for selecting relevant literature, identify good (evaluation) practices, and propose recommendations. Method: Using a recent large-scale study as an example, we identify problems with the use of traditional metrics for assessing the performance of Gen-AI tools for identifying relevant literature in SRs. We analyzed 27 additional papers investigating this issue, extracted the performance metrics, and found both good practices and widespread problems, especially with the use and reporting of performance metrics for SR screening. Results: Major weaknesses included: i) a failure to use metrics that are robust to imbalanced data and do not directly indicate whether results are better than chance, e.g., the use of Accuracy, ii) a failure to consider the impact of lost evidence when making claims concerning workload savings, and iii) pervasive failure to report the full confusion matrix (or performance metrics from which it can be reconstructed) which is essential for future meta-analyses. On the positive side, we extract good (evaluation) practices on which our recommendations for researchers and practitioners, as well as policymakers, are built. Conclusions: SR screening evaluations should prioritize lost evidence/recall alongside chance-anchored and cost-sensitive Weighted MCC (WMCC) metric, report complete confusion matrices, treat unclassifiable outputs as referred-back positives for assessment, adopt leakage-aware designs with non-LLM baselines and open artifacts, and ground conclusions in cost-benefit analysis where FNs carry higher penalties than FPs.
- Abstract(参考訳): コンテキスト: 大規模言語モデル(LLM)は、ユーザが厳格に評価する能力よりも早くリリースされる。
LLMが、体系的レビュー(SR)に関する関連文献の特定などの研究の基盤となる場合、堅牢な経験的評価が不可欠である。
目的: 文献の選択, 良質な(評価)実践の特定, 推薦のためのLLM性能評価における重要な課題を特定し, 議論する。
方法:最近の大規模研究を例として用いて,SRの文献を識別するためのGen-AIツールのパフォーマンスを評価するために,従来の指標を用いて問題を特定する。
我々は、この問題を調査する27の論文を分析し、パフォーマンス指標を抽出し、特にSRスクリーニングにおけるパフォーマンス指標の使用と報告において、優れたプラクティスと広範な問題の両方を発見した。
結果: 主な弱点は以下のとおりである。
一 不均衡なデータに頑健で、結果が偶然、例えば正確性の使用よりも優れているかどうかを直接示さないメトリクスを使用することができないこと。
二 作業費の貯蓄に係る請求を行う際、失われた証拠の影響を考慮できないこと。
三 将来のメタ分析に欠かせない完全な混乱行列(又は再建可能な性能指標)を報告できないこと。
ポジティブな面では、研究者や実践者や政策立案者に対する勧告が構築される優れた(評価)プラクティスを抽出する。
結論: SRスクリーニング評価は, リスクアンコールおよびコストセンシティブな重み付きMCC(WMCC)測定値とともに, 損失証拠/リコールを優先すべきであり, 完全な混乱行列を報告し, 非LLMベースラインとオープンアーティファクトによる漏洩認識設計の適用, FNがFPよりも高いペナルティを担っているコスト・ベネフィット分析の結論を導出すべきである。
関連論文リスト
- Redefining Retrieval Evaluation in the Era of LLMs [20.75884808285362]
従来の情報検索(IR)メトリクスは、人間が下位階級への注意を減らした文書を逐次調査することを前提としている。
この仮定は、Large Language Models (LLM) によって検索結果が消費される検索拡張生成(RAG)システムにおいて破られる。
本稿では,関連するパスの肯定的な寄与と,注意をそらすパスのネガティブな影響の両方を定量化するユーティリティベースのアノテーションスキーマを提案する。
論文 参考訳(メタデータ) (2025-10-24T13:17:00Z) - AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。
ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文 参考訳(メタデータ) (2025-06-30T13:57:28Z) - Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review [6.946630487078163]
大規模言語モデル(LLM)は多くの領域にまたがって変換されている。
不確実性定量化(英: Uncertainty Quantification, UQ)とは、不確実性の測定と、不確実性と正確性の間の不一致に対処するための校正技術である。
この調査は、LCMの校正方法と関連するメトリクスをレビューする最初の専用研究である。
論文 参考訳(メタデータ) (2025-04-25T13:34:40Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。