論文の概要: Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screening: Relevance and Task-Stage Classification
- arxiv url: http://arxiv.org/abs/2510.16091v1
- Date: Fri, 17 Oct 2025 16:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.846889
- Title: Evaluating Prompting Strategies and Large Language Models in Systematic Literature Review Screening: Relevance and Task-Stage Classification
- Title(参考訳): 体系的文献レビューレビューにおけるプロンプティング戦略と大規模言語モデルの評価:関連性およびタスクステージ分類
- Authors: Binglan Han, Anuradha Mathrani, Teo Susnjak,
- Abstract要約: 本研究では,大規模言語モデル (LLM) と戦略がどう相互作用するかを定量化し,体系的な文献レビューのスクリーニング段階を自動化する。
GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverickの6種類のLCMを5種類のプロンプト型で評価した。
CoT-Few-shotは、最も信頼性の高い精度とリコールのバランス、ゼロショットは高感度パスのリコールを最大化し、自己反射はモデル全体の過度な傾きと不安定さによって不利益となる。
- 参考スコア(独自算出の注目度): 1.2234742322758418
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study quantifies how prompting strategies interact with large language models (LLMs) to automate the screening stage of systematic literature reviews (SLRs). We evaluate six LLMs (GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverick) under five prompt types (zero-shot, few-shot, chain-of-thought (CoT), CoT-few-shot, self-reflection) across relevance classification and six Level-2 tasks, using accuracy, precision, recall, and F1. Results show pronounced model-prompt interaction effects: CoT-few-shot yields the most reliable precision-recall balance; zero-shot maximizes recall for high-sensitivity passes; and self-reflection underperforms due to over-inclusivity and instability across models. GPT-4o and DeepSeek provide robust overall performance, while GPT-4o-mini performs competitively at a substantially lower dollar cost. A cost-performance analysis for relevance classification (per 1,000 abstracts) reveals large absolute differences among model-prompt pairings; GPT-4o-mini remains low-cost across prompts, and structured prompts (CoT/CoT-few-shot) on GPT-4o-mini offer attractive F1 at a small incremental cost. We recommend a staged workflow that (1) deploys low-cost models with structured prompts for first-pass screening and (2) escalates only borderline cases to higher-capacity models. These findings highlight LLMs' uneven but promising potential to automate literature screening. By systematically analyzing prompt-model interactions, we provide a comparative benchmark and practical guidance for task-adaptive LLM deployment.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) と戦略がどう相互作用するかを定量化し,体系的文献レビュー (SLR) のスクリーニング段階を自動化する。
GPT-4o, GPT-4o-mini, DeepSeek-Chat-V3, Gemini-2.5-Flash, Claude-3.5-Haiku, Llama-4-Maverickの6種類のLCMを, 精度, 精度, リコール, F1を用いて, 関連性分類と6つのレベル2タスクからなるゼロショット, 少数ショット, チェーン・オブ・リフレクション(CoT), CoT-few-shot, 自己回帰)で評価した。
CoT-Few-shotは、最も信頼性の高い精度-リコールバランス、ゼロショットは、高感度パスのリコールを最大化し、モデル間の過度な傾きと不安定性による自己反射のアンダーパフォーマンスを示す。
GPT-4oとDeepSeekは総合的な性能を安定させ、GPT-4o-miniは実質的に低価格で競争力を発揮する。
GPT-4o-miniはプロンプト間のコストが低く、GPT-4o-mini上の構造化プロンプト(CoT/CoT-Few-shot)は少ないインクリメンタルコストで魅力的なF1を提供する。
本稿では,(1)第1パススクリーニングのための構造化プロンプトを備えた低コストモデルをデプロイし,(2)境界ケースのみを高容量モデルにエスカレートする,段階的なワークフローを提案する。
これらの知見は、LLMが文学検診の自動化に不均一だが有望な可能性を浮き彫りにしている。
本稿では,プロンプト-モデル相互作用を体系的に解析することにより,タスク適応型LLMデプロイメントのための比較ベンチマークと実践的ガイダンスを提供する。
関連論文リスト
- Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - CARGO: A Framework for Confidence-Aware Routing of Large Language Models [6.002503434201551]
CARGOは動的大規模言語モデル(LLM)選択のための軽量で信頼性に配慮したフレームワークである。
CARGOは、LLM-judgedペアワイド比較に基づいて訓練された単一の埋め込みベースの回帰器を用いて、モデル性能を予測する。
CARGOは76.4%でトップ1のルーティング精度を達成し、個々の専門家に対して72%から89%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-09-18T12:21:30Z) - Dissecting Clinical Reasoning in Language Models: A Comparative Study of Prompts and Model Adaptation Strategies [4.299840769087444]
本研究は, 臨床用NLIにおいて, 高速な構造と高効率な微調整関節形状モデルの性能について, 制御された最初の評価を行ったものである。
我々は、フロンティアモデルを用いて、ローランド適応(LoRA)を介して、より小さなモデルに多段階推論機能を組み込む高品質なデモを構築する。
NLI4CTベンチマークで微調整した言語モデルでは,マクロF1の差の最大44%がプロンプト型のみであることがわかった。
LoRAファインチューニングは、+8から12F1の一貫性のあるゲインを獲得し、出力アライメントを97%以上引き上げ、パフォーマンスギャップをGPT-4に絞り込む。
論文 参考訳(メタデータ) (2025-07-05T19:43:54Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Toward Automatic Relevance Judgment using Vision--Language Models for Image--Text Retrieval Evaluation [56.49084589053732]
VLM(Vision-Language Models)は、様々なアプリケーションで成功を収めてきたが、関連性判断を支援する可能性はまだ不明である。
本稿では,CLIP,LLaVA,GPT-4Vを含むVLMの関連性評価機能について,ゼロショット方式でマルチメディアコンテンツ作成に適した大規模テキスト分割ホック検索タスクで評価する。
論文 参考訳(メタデータ) (2024-08-02T16:15:25Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。