論文の概要: Beyond Accuracy: LLM Variability in Evidence Screening for Software Engineering SLRs
- arxiv url: http://arxiv.org/abs/2604.27006v1
- Date: Wed, 29 Apr 2026 08:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.715536
- Title: Beyond Accuracy: LLM Variability in Evidence Screening for Software Engineering SLRs
- Title(参考訳): 正確性を超えて - ソフトウェアエンジニアリングSLRのエビデンススクリーニングにおけるLCMの多様性
- Authors: Gilberto Sussumu Hida, Danilo Monteiro Ribeiro, Erika Yahata,
- Abstract要約: 大規模言語モデル(LLM)は、体系的な文献レビューにおいて、スクリーニングの研究に使用される。
急速な取り込みにもかかわらず、そのようなモデルが研究スクリーニングフェーズでどのように振る舞うかは限定的な証拠である。
本研究では,LLMの性能に及ぼす入力メタデータ(抽出,タイトル,キーワード)の影響について検討した。
- 参考スコア(独自算出の注目度): 0.29737220923371155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Study screening in systematic literature reviews is costly, inconsistency-prone, and risk-asymmetric, since false negatives can compromise validity. Despite rapid uptake of Large Language Models (LLMs), there is limited evidence on how such models behave during the study screening phase, particularly regarding the choice of specific LLMs and their comparison with classical models. Objective: To assess LLM performance and variability in screening, quantify the impact of input metadata (abstract, title, keywords), and compare LLMs with classical classifiers under a shared protocol. Methods: We analyzed 12 LLMs from 4 providers (OpenAI, Google Gemini, Anthropic, Llama) and 4 classical models (Logistic Regression, Support Vector Classification, Random Forest, and Naive Bayes) on 2 real Systematic Literature Reviews (SLRs), totaling 518 papers. The experimental design investigated 3 critical dimensions: (i) LLMs performance variability, (ii) the impact of input feature composition (abstract, title, and keywords) on LLM performance, and (iii) the real gain of using LLMs instead of more traditional classification models. Results: LLMs exhibited substantial heterogeneity and residual non-determinism even at temperature zero. Abstract availability was decisive: removing it consistently degraded performance, while adding title and/or keywords to the abstract yielded no robust gains. Compared to classical models, performance differences were not consistent enough to support generalizable LLM superiority. Discussion: LLM adoption should be justified by operational and governance constraints (reproducibility, cost, metadata availability), supported by pilot validation and explicit reporting of variability and input configuration.
- Abstract(参考訳): コンテキスト: 体系的な文献レビューでの調査は、偽陰性が妥当性を損なう可能性があるため、コストがかかり、一貫性が低く、リスク非対称である。
LLM(Large Language Models)の急速な普及にもかかわらず、そのようなモデルが学習スクリーニングフェーズにおいてどのように振る舞うかについては、特に特定のLCMの選択と古典モデルとの比較について限定的な証拠がある。
目的: スクリーニングにおけるLCMの性能と変動性を評価し, 入力メタデータ(抽象メタデータ, タイトル, キーワード)の影響を定量化し, 共有プロトコル下での従来の分類器との比較を行う。
方法:4つのプロバイダ(OpenAI, Google Gemini, Anthropic, Llama)と4つの古典モデル(ロジスティック回帰, サポートベクトル分類, ランダムフォレスト, ネイブベイズ)から,2つの実システム文献レビュー(SLR)を解析し,合計518の論文をまとめた。
実験設計は3つの重要な次元を調査した。
(i)LLMの性能変動
二 入力特徴合成(抽出、タイトル、キーワード)がLLM性能に与える影響、及び
(iii)従来の分類モデルに代えてLLMを使うことによる真の利益。
結果: LLMは温度0。
抽象的な可用性は決定的だった。パフォーマンスを継続的に低下させる一方で、タイトルやキーワードを抽象的に追加しても、堅牢なゲインは得られなかった。
古典的なモデルと比較して、性能の違いは、一般化可能なLLMの優位性をサポートするには不十分であった。
議論: LLMの採用は、運用およびガバナンスの制約(再現性、コスト、メタデータの可用性)によって正当化され、パイロット検証と変数と入力設定の明示的な報告によってサポートされるべきである。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。