論文の概要: Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews
- arxiv url: http://arxiv.org/abs/2407.10652v2
- Date: Mon, 28 Apr 2025 07:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.875906
- Title: Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews
- Title(参考訳): クラッタを切断する: 体系的文献レビューにおける効率的な濾過のためのLCMの可能性
- Authors: Lucas Joos, Daniel A. Keim, Maximilian T. Fischer,
- Abstract要約: 文献濾過における効率と精度を高めるため,Large Language Models (LLMs) の評価を行った。
オープンソースのツールLLMSurverは、文学的なフィルタリングにLLMを使用するためのビジュアルインターフェースを提供する。
最近のLLMモデルは、フィルタリング時間を数週間から数分に短縮できることを示している。
- 参考スコア(独自算出の注目度): 7.355182982314533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic literature reviews (SLRs) are essential but labor-intensive due to high publication volumes and inefficient keyword-based filtering. To streamline this process, we evaluate Large Language Models (LLMs) for enhancing efficiency and accuracy in corpus filtration while minimizing manual effort. Our open-source tool LLMSurver presents a visual interface to utilize LLMs for literature filtration, evaluate the results, and refine queries in an interactive way. We assess the real-world performance of our approach in filtering over 8.3k articles during a recent survey construction, comparing results with human efforts. The findings show that recent LLM models can reduce filtering time from weeks to minutes. A consensus scheme ensures recall rates >98.8%, surpassing typical human error thresholds and improving selection accuracy. This work advances literature review methodologies and highlights the potential of responsible human-AI collaboration in academic research.
- Abstract(参考訳): 体系的文献レビュー(SLR)は必須であるが、高出版量と非効率なキーワードベースのフィルタリングのために労働集約的である。
このプロセスの合理化のために,手作業の最小化を図り,コーパス濾過の効率と精度を高めるために,Large Language Models (LLMs) の評価を行った。
オープンソースのツールLLMSurverは、LLMを文献濾過に利用し、結果を評価し、対話的な方法でクエリを洗練するためのビジュアルインターフェースを提供する。
近年のアンケート調査では,8.3k以上の記事をフィルタリングする手法の現実的な性能を評価し,その結果を人的努力と比較した。
その結果,最近のLLMモデルでは,フィルタ時間を数週間から数分に短縮できることがわかった。
コンセンサス方式では、リコールレートが98.8%と保証され、一般的な人間のエラー閾値を超え、選択精度が向上する。
本研究は文献レビュー手法を進歩させ,学術研究における責任ある人間とAIの連携の可能性を強調した。
関連論文リスト
- Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science [0.18416014644193066]
大型言語モデル(LLM)は、4人のコモンウェルス科学産業研究機関(CSIRO)研究者を支援するために使用された。
系統的な文献レビューのためのLLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-03-16T05:52:18Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs [32.48924329288906]
本研究では,LLMを用いたデータ抽出を高速化する文献解析のための半自動手法を提案する。
関連するarXiv論文を自動的に識別し、実験結果と関連する属性を抽出し、構造化データセットLLMEvalDBに編成する。
次に、フロンティアLCMの自動文献解析を行い、手動によるアプローチと比較して、紙調査とデータ抽出の労力を93%以上削減する。
論文 参考訳(メタデータ) (2025-02-26T03:56:34Z) - LitLLMs, LLMs for Literature Review: Are we there yet? [15.785989492351684]
本稿では,近年の大規模言語モデルのゼロショット能力について,要約に基づく文献レビューの執筆支援について考察する。
まず LLM を用いて,論文の要約から意味のあるキーワードを抽出する新しい2段階探索手法を提案する。
生成段階では、まずレビューの計画を概説し、次に実際のレビューを生成するためのステップを実行する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-15T01:12:26Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - PROMPTHEUS: A Human-Centered Pipeline to Streamline SLRs with LLMs [0.0]
PROMPTHEUSは、システム文学レビューのためのAI駆動パイプラインソリューションである。
システム検索、データ抽出、トピックモデリング、要約など、SLRプロセスの重要な段階を自動化する。
高い精度を実現し、一貫性のあるトピック組織を提供し、レビュー時間を短縮します。
論文 参考訳(メタデータ) (2024-10-21T13:05:33Z) - The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - LLAssist: Simple Tools for Automating Literature Review Using Large Language Models [0.0]
LLAssistは学術研究における文献レビューの合理化を目的としたオープンソースツールである。
レビュープロセスの重要な側面を自動化するために、Large Language Models(LLM)とNatural Language Processing(NLP)技術を使用する。
論文 参考訳(メタデータ) (2024-07-19T02:48:54Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - ChatCite: LLM Agent with Human Workflow Guidance for Comparative
Literature Summary [30.409552944905915]
ChatCiteは、人間によるワークフローガイダンスを備えたLLMエージェントで、比較文学の要約を提供する。
ChatCiteエージェントは実験において様々な次元で他のモデルよりも優れていた。
ChatCiteが生成した文献要約は、文学レビューの起草にも直接使用することができる。
論文 参考訳(メタデータ) (2024-03-05T01:13:56Z) - Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - Streamlining the Selection Phase of Systematic Literature Reviews (SLRs) Using AI-Enabled GPT-4 Assistant API [0.0]
本研究は,システム文献レビューにおいて,記事選択フェーズの効率を合理化するための,先駆的なAIベースのツールを紹介する。
このツールは、幅広い学術分野にわたる記事選択プロセスの均質化に成功している。
論文 参考訳(メタデータ) (2024-01-14T11:16:16Z) - Zero-shot Generative Large Language Models for Systematic Review
Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文 参考訳(メタデータ) (2024-01-12T01:54:08Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Can large language models replace humans in the systematic review
process? Evaluating GPT-4's efficacy in screening and extracting data from
peer-reviewed and grey literature in multiple languages [0.0]
本研究は, GPT-4のタイトル/サブトラクションスクリーニング, フルテキストレビュー, およびデータ抽出能力について, ヒューマン・アウト・オブ・ザ・ループ(Human-out-of-the-loop)アプローチを用いて評価した。
GPT-4は、ほとんどのタスクにおいて人間のパフォーマンスと同等の精度を持っていたが、結果は偶然の合意とデータセットの不均衡によって歪められた。
信頼性の高いプロンプトを用いたフルテキスト文学のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
論文 参考訳(メタデータ) (2023-10-26T16:18:30Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Less is More for Long Document Summary Evaluation by LLMs [8.329113698912572]
本稿では,長い資料からキー文を抽出し,LCMをプロンプトすることで要約を評価する,新しい手法であるExtract-then-Evaluateを提案する。
その結果,提案手法は評価コストを大幅に削減するだけでなく,人的評価と高い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-14T01:59:15Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。