Fugu-MT 論文翻訳(概要): Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews

論文の概要: Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews

arxiv url: http://arxiv.org/abs/2407.10652v1
Date: Mon, 15 Jul 2024 12:13:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 15:21:27.002979
Title: Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews
Title（参考訳）: クラッタを切断する: 体系的文献レビューにおける効率的な濾過のためのLCMの可能性
Authors: Lucas Joos, Daniel A. Keim, Maximilian T. Fischer,
Abstract要約: 大規模言語モデル(LLM)は、文献レビューフィルタリングの効率、速度、精度を高めるために用いられる。単純なプロンプトによる高度なLCMを用いることで,文学的なフィルタリングに要する時間を大幅に削減できることを示す。また、偽陰性は実際にコンセンサス・スキームによって制御でき、通常の人間のエラー・しきい値の98.8%以上のリコールを達成できることを示す。
参考スコア（独自算出の注目度）: 7.355182982314533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In academic research, systematic literature reviews are foundational and highly relevant, yet tedious to create due to the high volume of publications and labor-intensive processes involved. Systematic selection of relevant papers through conventional means like keyword-based filtering techniques can sometimes be inadequate, plagued by semantic ambiguities and inconsistent terminology, which can lead to sub-optimal outcomes. To mitigate the required extensive manual filtering, we explore and evaluate the potential of using Large Language Models (LLMs) to enhance the efficiency, speed, and precision of literature review filtering, reducing the amount of manual screening required. By using models as classification agents acting on a structured database only, we prevent common problems inherent in LLMs, such as hallucinations. We evaluate the real-world performance of such a setup during the construction of a recent literature survey paper with initially more than 8.3k potentially relevant articles under consideration and compare this with human performance on the same dataset. Our findings indicate that employing advanced LLMs like GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Flash, or Llama3 with simple prompting can significantly reduce the time required for literature filtering - from usually weeks of manual research to only a few minutes. Simultaneously, we crucially show that false negatives can indeed be controlled through a consensus scheme, achieving recalls >98.8% at or even beyond the typical human error threshold, thereby also providing for more accurate and relevant articles selected. Our research not only demonstrates a substantial improvement in the methodology of literature reviews but also sets the stage for further integration and extensive future applications of responsible AI in academic research practices.
Abstract（参考訳）: 学術研究において、体系的な文献レビューは基礎的かつ非常に関連性が高いが、大量の出版物や労働集約的なプロセスのために、作成は面倒である。キーワードベースのフィルタリング手法のような従来手法による関連論文の体系的選択は、意味的曖昧さや矛盾した用語によって悩まされ、亜最適結果をもたらすことがある。必要となる広範囲な手動フィルタリングを緩和するために,我々はLarge Language Models (LLMs) を用いて文献レビューフィルタリングの効率,速度,精度を高め,必要な手動スクリーニングの量を削減できる可能性を探究し,評価する。構造化データベースにのみ作用する分類エージェントとしてモデルを用いることで、幻覚などのLLMに固有の共通問題を防止する。本稿は,近年の文献調査において,まず8.3万件以上の関連記事が検討されている中で,そのようなセットアップの現実的な性能を評価し,これを同一データセット上での人的パフォーマンスと比較する。 GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Flash, Llama3といった高度なLLMを単純なプロンプトで利用することで、文学的なフィルタリングに要する時間を、通常数週間のマニュアル調査から数分に短縮できることがわかった。同時に、偽陰性はコンセンサス・スキームによって実際に制御可能であることを示し、典型的ヒューマンエラー・しきい値の98.8%以上のリコールを達成し、より正確で関連性の高い記事を提供する。我々の研究は、文献レビューの方法論を大幅に改善するだけでなく、学術的な研究実践における責任あるAIのさらなる統合と広範な将来的な応用のステージも立てている。

関連論文リスト

AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation [0.8437187555622164]
本研究は,他の文脈におけるオープンエンドサーベイ応答の符号化に,LLMがどの程度の精度で利用できるかを検討する。我々は、最先端のLLMといくつかのプロンプトアプローチを比較し、人間の専門家による符号化を用いてLLMの性能を評価する。本研究は, LLMを効率的に, 正確に, 確実に活用できる環境研究の進展に寄与する。
論文参考訳（メタデータ） (2025-06-17T15:28:53Z)
LLM-Independent Adaptive RAG: Let the Question Speak for Itself [47.60917219813637]
大型言語モデル (LLM) は幻覚を起こす傾向があり、検索型拡張生成 (RAG) がこれを助けているが、誤報のリスクが高い計算コストが高い。本研究では,外部情報に基づく軽量LLM非依存適応検索手法を提案する。
論文参考訳（メタデータ） (2025-05-07T08:58:52Z)
Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science [0.18416014644193066]
大型言語モデル(LLM)は、4人のコモンウェルス科学産業研究機関(CSIRO)研究者を支援するために使用された。系統的な文献レビューのためのLLMの性能評価を行った。
論文参考訳（メタデータ） (2025-03-16T05:52:18Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs [32.48924329288906]
本研究では,LLMを用いたデータ抽出を高速化する文献解析のための半自動手法を提案する。関連するarXiv論文を自動的に識別し、実験結果と関連する属性を抽出し、構造化データセットLLMEvalDBに編成する。次に、フロンティアLCMの自動文献解析を行い、手動によるアプローチと比較して、紙調査とデータ抽出の労力を93%以上削減する。
論文参考訳（メタデータ） (2025-02-26T03:56:34Z)
LitLLMs, LLMs for Literature Review: Are we there yet? [15.785989492351684]
本稿では,近年の大規模言語モデルのゼロショット能力について,要約に基づく文献レビューの執筆支援について考察する。まず LLM を用いて,論文の要約から意味のあるキーワードを抽出する新しい2段階探索手法を提案する。生成段階では、まずレビューの計画を概説し、次に実際のレビューを生成するためのステップを実行する2段階のアプローチを提案する。
論文参考訳（メタデータ） (2024-12-15T01:12:26Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
PROMPTHEUS: A Human-Centered Pipeline to Streamline SLRs with LLMs [0.0]
PROMPTHEUSは、システム文学レビューのためのAI駆動パイプラインソリューションである。システム検索、データ抽出、トピックモデリング、要約など、SLRプロセスの重要な段階を自動化する。高い精度を実現し、一貫性のあるトピック組織を提供し、レビュー時間を短縮します。
論文参考訳（メタデータ） (2024-10-21T13:05:33Z)
The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文参考訳（メタデータ） (2024-10-07T02:30:18Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
LLAssist: Simple Tools for Automating Literature Review Using Large Language Models [0.0]
LLAssistは学術研究における文献レビューの合理化を目的としたオープンソースツールである。レビュープロセスの重要な側面を自動化するために、Large Language Models(LLM)とNatural Language Processing(NLP)技術を使用する。
論文参考訳（メタデータ） (2024-07-19T02:48:54Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
ChatCite: LLM Agent with Human Workflow Guidance for Comparative Literature Summary [30.409552944905915]
ChatCiteは、人間によるワークフローガイダンスを備えたLLMエージェントで、比較文学の要約を提供する。 ChatCiteエージェントは実験において様々な次元で他のモデルよりも優れていた。 ChatCiteが生成した文献要約は、文学レビューの起草にも直接使用することができる。
論文参考訳（メタデータ） (2024-03-05T01:13:56Z)
Bridging Research and Readers: A Multi-Modal Automated Academic Papers Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文参考訳（メタデータ） (2024-01-17T11:50:53Z)
Streamlining the Selection Phase of Systematic Literature Reviews (SLRs) Using AI-Enabled GPT-4 Assistant API [0.0]
本研究は,システム文献レビューにおいて,記事選択フェーズの効率を合理化するための,先駆的なAIベースのツールを紹介する。このツールは、幅広い学術分野にわたる記事選択プロセスの均質化に成功している。
論文参考訳（メタデータ） (2024-01-14T11:16:16Z)
Zero-shot Generative Large Language Models for Systematic Review Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文参考訳（メタデータ） (2024-01-12T01:54:08Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Can large language models replace humans in the systematic review process? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages [0.0]
本研究は, GPT-4のタイトル/サブトラクションスクリーニング, フルテキストレビュー, およびデータ抽出能力について, ヒューマン・アウト・オブ・ザ・ループ(Human-out-of-the-loop)アプローチを用いて評価した。 GPT-4は、ほとんどのタスクにおいて人間のパフォーマンスと同等の精度を持っていたが、結果は偶然の合意とデータセットの不均衡によって歪められた。信頼性の高いプロンプトを用いたフルテキスト文学のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
論文参考訳（メタデータ） (2023-10-26T16:18:30Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Less is More for Long Document Summary Evaluation by LLMs [8.329113698912572]
本稿では,長い資料からキー文を抽出し,LCMをプロンプトすることで要約を評価する,新しい手法であるExtract-then-Evaluateを提案する。その結果,提案手法は評価コストを大幅に削減するだけでなく,人的評価と高い相関性を示すことがわかった。
論文参考訳（メタデータ） (2023-09-14T01:59:15Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。