論文の概要: Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews
- arxiv url: http://arxiv.org/abs/2407.10652v1
- Date: Mon, 15 Jul 2024 12:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:21:27.002979
- Title: Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews
- Title(参考訳): クラッタを切断する: 体系的文献レビューにおける効率的な濾過のためのLCMの可能性
- Authors: Lucas Joos, Daniel A. Keim, Maximilian T. Fischer,
- Abstract要約: 大規模言語モデル(LLM)は、文献レビューフィルタリングの効率、速度、精度を高めるために用いられる。
単純なプロンプトによる高度なLCMを用いることで,文学的なフィルタリングに要する時間を大幅に削減できることを示す。
また、偽陰性は実際にコンセンサス・スキームによって制御でき、通常の人間のエラー・しきい値の98.8%以上のリコールを達成できることを示す。
- 参考スコア(独自算出の注目度): 7.355182982314533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In academic research, systematic literature reviews are foundational and highly relevant, yet tedious to create due to the high volume of publications and labor-intensive processes involved. Systematic selection of relevant papers through conventional means like keyword-based filtering techniques can sometimes be inadequate, plagued by semantic ambiguities and inconsistent terminology, which can lead to sub-optimal outcomes. To mitigate the required extensive manual filtering, we explore and evaluate the potential of using Large Language Models (LLMs) to enhance the efficiency, speed, and precision of literature review filtering, reducing the amount of manual screening required. By using models as classification agents acting on a structured database only, we prevent common problems inherent in LLMs, such as hallucinations. We evaluate the real-world performance of such a setup during the construction of a recent literature survey paper with initially more than 8.3k potentially relevant articles under consideration and compare this with human performance on the same dataset. Our findings indicate that employing advanced LLMs like GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Flash, or Llama3 with simple prompting can significantly reduce the time required for literature filtering - from usually weeks of manual research to only a few minutes. Simultaneously, we crucially show that false negatives can indeed be controlled through a consensus scheme, achieving recalls >98.8% at or even beyond the typical human error threshold, thereby also providing for more accurate and relevant articles selected. Our research not only demonstrates a substantial improvement in the methodology of literature reviews but also sets the stage for further integration and extensive future applications of responsible AI in academic research practices.
- Abstract(参考訳): 学術研究において、体系的な文献レビューは基礎的かつ非常に関連性が高いが、大量の出版物や労働集約的なプロセスのために、作成は面倒である。
キーワードベースのフィルタリング手法のような従来手法による関連論文の体系的選択は、意味的曖昧さや矛盾した用語によって悩まされ、亜最適結果をもたらすことがある。
必要となる広範囲な手動フィルタリングを緩和するために,我々はLarge Language Models (LLMs) を用いて文献レビューフィルタリングの効率,速度,精度を高め,必要な手動スクリーニングの量を削減できる可能性を探究し,評価する。
構造化データベースにのみ作用する分類エージェントとしてモデルを用いることで、幻覚などのLLMに固有の共通問題を防止する。
本稿は,近年の文献調査において,まず8.3万件以上の関連記事が検討されている中で,そのようなセットアップの現実的な性能を評価し,これを同一データセット上での人的パフォーマンスと比較する。
GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Flash, Llama3といった高度なLLMを単純なプロンプトで利用することで、文学的なフィルタリングに要する時間を、通常数週間のマニュアル調査から数分に短縮できることがわかった。
同時に、偽陰性はコンセンサス・スキームによって実際に制御可能であることを示し、典型的ヒューマンエラー・しきい値の98.8%以上のリコールを達成し、より正確で関連性の高い記事を提供する。
我々の研究は、文献レビューの方法論を大幅に改善するだけでなく、学術的な研究実践における責任あるAIのさらなる統合と広範な将来的な応用のステージも立てている。
関連論文リスト
- LLMs for Literature Review: Are we there yet? [15.785989492351684]
本稿では,近年の大規模言語モデルのゼロショット能力について,要約に基づく文献レビューの執筆支援について考察する。
まず LLM を用いて,論文の要約から意味のあるキーワードを抽出する新しい2段階探索手法を提案する。
生成段階では、まずレビューの計画を概説し、次に実際のレビューを生成するためのステップを実行する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-15T01:12:26Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - PROMPTHEUS: A Human-Centered Pipeline to Streamline SLRs with LLMs [0.0]
PROMPTHEUSは、システム文学レビューのためのAI駆動パイプラインソリューションである。
システム検索、データ抽出、トピックモデリング、要約など、SLRプロセスの重要な段階を自動化する。
高い精度を実現し、一貫性のあるトピック組織を提供し、レビュー時間を短縮します。
論文 参考訳(メタデータ) (2024-10-21T13:05:33Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - LLAssist: Simple Tools for Automating Literature Review Using Large Language Models [0.0]
LLAssistは学術研究における文献レビューの合理化を目的としたオープンソースツールである。
レビュープロセスの重要な側面を自動化するために、Large Language Models(LLM)とNatural Language Processing(NLP)技術を使用する。
論文 参考訳(メタデータ) (2024-07-19T02:48:54Z) - ChatCite: LLM Agent with Human Workflow Guidance for Comparative
Literature Summary [30.409552944905915]
ChatCiteは、人間によるワークフローガイダンスを備えたLLMエージェントで、比較文学の要約を提供する。
ChatCiteエージェントは実験において様々な次元で他のモデルよりも優れていた。
ChatCiteが生成した文献要約は、文学レビューの起草にも直接使用することができる。
論文 参考訳(メタデータ) (2024-03-05T01:13:56Z) - Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - Zero-shot Generative Large Language Models for Systematic Review
Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文 参考訳(メタデータ) (2024-01-12T01:54:08Z) - Can large language models replace humans in the systematic review
process? Evaluating GPT-4's efficacy in screening and extracting data from
peer-reviewed and grey literature in multiple languages [0.0]
本研究は, GPT-4のタイトル/サブトラクションスクリーニング, フルテキストレビュー, およびデータ抽出能力について, ヒューマン・アウト・オブ・ザ・ループ(Human-out-of-the-loop)アプローチを用いて評価した。
GPT-4は、ほとんどのタスクにおいて人間のパフォーマンスと同等の精度を持っていたが、結果は偶然の合意とデータセットの不均衡によって歪められた。
信頼性の高いプロンプトを用いたフルテキスト文学のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
論文 参考訳(メタデータ) (2023-10-26T16:18:30Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。