論文の概要: The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review
- arxiv url: http://arxiv.org/abs/2409.04600v1
- Date: Fri, 6 Sep 2024 20:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 21:42:30.196348
- Title: The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review
- Title(参考訳): 書評におけるツールとしてのLarge Language Models(LLM)の出現--LLM自動体系的レビュー
- Authors: Dmitry Scherbakov, Nina Hubig, Vinita Jansari, Alexander Bakumenko, Leslie A. Lenert,
- Abstract要約: 本研究では,Large Language Models (LLMs) の科学的レビュー作成過程における使用法を要約することを目的とする。
我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。
- 参考スコア(独自算出の注目度): 42.112100361891905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: This study aims to summarize the usage of Large Language Models (LLMs) in the process of creating a scientific review. We look at the range of stages in a review that can be automated and assess the current state-of-the-art research projects in the field. Materials and Methods: The search was conducted in June 2024 in PubMed, Scopus, Dimensions, and Google Scholar databases by human reviewers. Screening and extraction process took place in Covidence with the help of LLM add-on which uses OpenAI gpt-4o model. ChatGPT was used to clean extracted data and generate code for figures in this manuscript, ChatGPT and Scite.ai were used in drafting all components of the manuscript, except the methods and discussion sections. Results: 3,788 articles were retrieved, and 172 studies were deemed eligible for the final review. ChatGPT and GPT-based LLM emerged as the most dominant architecture for review automation (n=126, 73.2%). A significant number of review automation projects were found, but only a limited number of papers (n=26, 15.1%) were actual reviews that used LLM during their creation. Most citations focused on automation of a particular stage of review, such as Searching for publications (n=60, 34.9%), and Data extraction (n=54, 31.4%). When comparing pooled performance of GPT-based and BERT-based models, the former were better in data extraction with mean precision 83.0% (SD=10.4), and recall 86.0% (SD=9.8), while being slightly less accurate in title and abstract screening stage (Maccuracy=77.3%, SD=13.0). Discussion/Conclusion: Our LLM-assisted systematic review revealed a significant number of research projects related to review automation using LLMs. The results looked promising, and we anticipate that LLMs will change in the near future the way the scientific reviews are conducted.
- Abstract(参考訳): 目的:本研究は,科学的レビューを作成する過程において,LLM(Large Language Models)の使用法を要約することを目的としている。
我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。
Materials and Methods: この検索は2024年6月にPubMed, Scopus, Dimensions, Google Scholarデータベースで人間レビュアーによって行われた。
スクリーニングと抽出は、OpenAI gpt-4oモデルを用いたLLMアドオンの助けを借りて、Covidenceで実施された。
ChatGPTは抽出されたデータをクリーンにし、この写本の数字のコードを生成するために用いられ、ChatGPTとScite.aiは、メソッドや議論セクションを除いて、原稿のすべてのコンポーネントのドラフトに使用された。
結果:3,788項目が検索され,最終審査対象となったのは172項目であった。
チャットGPTとGPTベースのLCMはレビュー自動化の最も支配的なアーキテクチャ(n=126, 73.2%)として登場した。
かなりの数のレビュー自動化プロジェクトが見つかったが、作成にLLMを使用した実際のレビューは、ごく少数の論文(n=26, 15.1%)しかなかった。
ほとんどの引用は、出版物の検索(n=60, 34.9%)やデータ抽出(n=54, 31.4%)など、レビューの特定の段階の自動化に焦点を当てた。
GPTベースのモデルとBERTベースのモデルのプール性能を比較する場合、前者は平均精度83.0% (SD=10.4) のデータ抽出と86.0% (SD=9.8) のリコールに優れ、タイトルと抽象スクリーニングの段階ではわずかに精度が低い(Maccuracy=77.3%、SD=13.0)。
考察・結論: LLMを用いたシステムレビューの結果,LLMを用いたレビュー自動化に関する研究プロジェクトが多数存在することが明らかとなった。
結果は期待できそうに見え、近い将来、LLMが科学的レビューの実施方法を変えていくと予測している。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs [41.64918533152914]
本研究では,大言語モデル(LLM)が2種類の文クエリに基づいて参照を生成することができるかどうかを検討する。
約20万件の研究論文から, 公立及びプロプライエタリなLCMについて, 以下を引用する。
本研究は,自動引用生成タスクにおけるRAGの信頼性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - LLMEval: A Preliminary Study on How to Evaluate Large Language Models [47.12588320134504]
我々は,様々な基準を手動評価と自動評価を比較し,現場,クラウドソーシング,パブリックアノテータ,GPT-4を用いて評価方法を分析する。
計2,186人が参加し、243,337のマニュアルアノテーションと57,511の自動評価結果が作成された。
論文 参考訳(メタデータ) (2023-12-12T16:14:43Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Towards an Understanding of Large Language Models in Software Engineering Tasks [29.30433406449331]
大規模言語モデル(LLM)は、テキスト生成や推論タスクにおける驚くべきパフォーマンスのために、広く注目を集め、研究している。
コード生成などのソフトウェア工学タスクにおけるLLMの評価と最適化が研究の焦点となっている。
本稿では,LLMとソフトウェア工学を組み合わせた研究・製品について包括的に検討・検討する。
論文 参考訳(メタデータ) (2023-08-22T12:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。