論文の概要: The Promise and Challenges of Using LLMs to Accelerate the Screening Process of Systematic Reviews
- arxiv url: http://arxiv.org/abs/2404.15667v3
- Date: Fri, 26 Apr 2024 13:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:15:51.751866
- Title: The Promise and Challenges of Using LLMs to Accelerate the Screening Process of Systematic Reviews
- Title(参考訳): システムレビューのスクリーニングプロセスの高速化に向けたLCMの利用の約束と課題
- Authors: Aleksi Huotala, Miikka Kuutila, Paul Ralph, Mika Mäntylä,
- Abstract要約: LLM(Large Language Models)は、人間のスクリーニングの抽象化を単純化することにより、タイトル・サブトラクションのスクリーニングを高速化する。
我々は,従来のシステムレビューのオリジナルと簡易の2つの要約を用いて,人間が20論文のタイトルと要約をスクリーニングする実験を行った。
また,異なるプロンプト技術 (Zero-shot (ZS), One-shot (OS), Few-shot (FS), Few-shot with Chain-of-Thought (FS-CoT)) がLCMのスクリーニング性能を向上させるかを検討した。
- 参考スコア(独自算出の注目度): 7.030989629685138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic review (SR) is a popular research method in software engineering (SE). However, conducting an SR takes an average of 67 weeks. Thus, automating any step of the SR process could reduce the effort associated with SRs. Our objective is to investigate if Large Language Models (LLMs) can accelerate title-abstract screening by simplifying abstracts for human screeners, and automating title-abstract screening. We performed an experiment where humans screened titles and abstracts for 20 papers with both original and simplified abstracts from a prior SR. The experiment with human screeners was reproduced with GPT-3.5 and GPT-4 LLMs to perform the same screening tasks. We also studied if different prompting techniques (Zero-shot (ZS), One-shot (OS), Few-shot (FS), and Few-shot with Chain-of-Thought (FS-CoT)) improve the screening performance of LLMs. Lastly, we studied if redesigning the prompt used in the LLM reproduction of screening leads to improved performance. Text simplification did not increase the screeners' screening performance, but reduced the time used in screening. Screeners' scientific literacy skills and researcher status predict screening performance. Some LLM and prompt combinations perform as well as human screeners in the screening tasks. Our results indicate that the GPT-4 LLM is better than its predecessor, GPT-3.5. Additionally, Few-shot and One-shot prompting outperforms Zero-shot prompting. Using LLMs for text simplification in the screening process does not significantly improve human performance. Using LLMs to automate title-abstract screening seems promising, but current LLMs are not significantly more accurate than human screeners. To recommend the use of LLMs in the screening process of SRs, more research is needed. We recommend future SR studies publish replication packages with screening data to enable more conclusive experimenting with LLM screening.
- Abstract(参考訳): システムレビュー (SR) は、ソフトウェア工学(SE)における一般的な研究手法である。
しかし、SRの実施には平均67週間を要する。
したがって、SRプロセスの任意のステップを自動化することで、SRに関連する労力を減らすことができる。
本研究の目的は,Large Language Models (LLMs) がヒューマンスクリーニングの抽象化を簡素化し,タイトル抽出スクリーニングを自動化することでタイトル抽出スクリーニングを高速化できるかどうかを検討することである。
我々は,従来のSRからオリジナルと簡易の両方の抽象化を用いて,人間が20論文のタイトルや要約をスクリーニングする実験を行った。
GPT-3.5とGPT-4 LLMでヒトスクリーニング実験を再現し、同じスクリーニング作業を行った。
また,異なるプロンプト技術 (Zero-shot (ZS), One-shot (OS), Few-shot (FS), Few-shot with Chain-of-Thought (FS-CoT)) がLCMのスクリーニング性能を向上させるかを検討した。
最後に,LLM再生におけるプロンプトの再設計が性能改善につながるかを検討した。
テキストの単純化はスクリーニング性能を向上させるには至らなかったが、スクリーニングに使用される時間を短縮した。
審査員の科学的識字能力と研究者の地位はスクリーニング性能を予測する。
いくつかのLDMとプロンプトの組み合わせは、スクリーニングタスクにおいて人間のスクリーニングと同様に機能する。
以上の結果から, GPT-4 LLM は従来の GPT-3.5 よりも優れていたことが示唆された。
さらに、Few-shotとOne-shotのプロンプトはZero-shotのプロンプトを上回っている。
スクリーニングプロセスにおけるLLMによるテキストの簡易化は,人間のパフォーマンスを著しく向上させるものではない。
LLMをタイトル抽出スクリーニングの自動化に利用することは有望と思われるが、現在のLLMは人間のスクリーニングよりもはるかに正確ではない。
SRのスクリーニングプロセスにおけるLLMの使用を推奨するためには、さらなる研究が必要である。
将来のSR研究は、LLMスクリーニングによるより包括的な実験を可能にするために、スクリーニングデータ付き複製パッケージを公開することを推奨する。
関連論文リスト
- Re-Ranking Step by Step: Investigating Pre-Filtering for Re-Ranking with Large Language Models [5.0490573482829335]
大規模言語モデル(LLM)は、さまざまなゼロショット機能を備えた多種多様な自然言語処理タスクに革命をもたらしている。
本稿では、情報検索(IR)における通過前の事前フィルタリングステップの使用について検討する。
実験の結果, この事前フィルタリングにより, LLMは再ランクタスクにおいて, 性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-26T20:12:24Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。
これにより、LDMがデータのみのソースからの命令を受け取り、作用するインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。
我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。
このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions [77.83767077859835]
LLM エージェントによる評価プロセス全体を自動化した LLM の自動アリーナを提案する。
最新のLLM17実験において,オートアリーナは人間の嗜好と最も高い相関関係を示した。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - SLMRec: Empowering Small Language Models for Sequential Recommendation [25.920216777752]
シーケンシャルレコメンデーションタスクでは、ユーザが対話しそうな次の項目を予測する。
最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。
LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文 参考訳(メタデータ) (2024-05-28T07:12:06Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。