論文の概要: Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study
- arxiv url: http://arxiv.org/abs/2405.14445v1
- Date: Thu, 23 May 2024 11:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 15:34:33.744340
- Title: Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study
- Title(参考訳): 体系的レビューにおける大規模言語モデルを用いたデータ抽出の探索 : 迅速な実現可能性の検討
- Authors: Lena Schmidt, Kaitlyn Hair, Sergio Graziozi, Fiona Campbell, Claudia Kapp, Alireza Khanteymoori, Dawn Craig, Mark Engelbert, James Thomas,
- Abstract要約: 本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
- 参考スコア(独自算出の注目度): 0.28318468414401093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes a rapid feasibility study of using GPT-4, a large language model (LLM), to (semi)automate data extraction in systematic reviews. Despite the recent surge of interest in LLMs there is still a lack of understanding of how to design LLM-based automation tools and how to robustly evaluate their performance. During the 2023 Evidence Synthesis Hackathon we conducted two feasibility studies. Firstly, to automatically extract study characteristics from human clinical, animal, and social science domain studies. We used two studies from each category for prompt-development; and ten for evaluation. Secondly, we used the LLM to predict Participants, Interventions, Controls and Outcomes (PICOs) labelled within 100 abstracts in the EBM-NLP dataset. Overall, results indicated an accuracy of around 80%, with some variability between domains (82% for human clinical, 80% for animal, and 72% for studies of human social sciences). Causal inference methods and study design were the data extraction items with the most errors. In the PICO study, participants and intervention/control showed high accuracy (>80%), outcomes were more challenging. Evaluation was done manually; scoring methods such as BLEU and ROUGE showed limited value. We observed variability in the LLMs predictions and changes in response quality. This paper presents a template for future evaluations of LLMs in the context of data extraction for systematic review automation. Our results show that there might be value in using LLMs, for example as second or third reviewers. However, caution is advised when integrating models such as GPT-4 into tools. Further research on stability and reliability in practical settings is warranted for each type of data that is processed by the LLM.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
LLMへの関心が最近高まっているにもかかわらず、LLMベースの自動化ツールの設計方法や、そのパフォーマンスを堅牢に評価する方法についてはまだ理解されていない。
2023年のエビデンス合成ハッカソンで、我々は2つの実現可能性研究を行った。
まず、ヒト臨床、動物、社会科学領域の研究から研究特性を自動的に抽出する。
本研究は,各カテゴリの即時開発に2回,評価に10回行った。
第2に、ELM-NLPデータセットにラベル付けされた参加者、介入、制御、成果(PICO)を予測するためにLLMを使用しました。
結果,動物では82%,動物では82%,社会科学では72%であった。
因果推論法と研究設計は、最も誤りの多いデータ抽出項目である。
PICO調査では,参加者と介入/コントロールは高い精度 (>80%) を示し,その結果はより困難であった。
BLEUやROUGEなどのスコアリング手法は限定的な値を示した。
LLMの予測の変動と応答品質の変化を観察した。
本稿では,システムレビュー自動化のためのデータ抽出の文脈におけるLCMの今後の評価のためのテンプレートを提案する。
以上の結果から,第2,第3のレビュアーなど LLM の利用には価値がある可能性が示唆された。
しかし、GPT-4のようなモデルをツールに統合する場合は注意が必要である。
LLMによって処理されるデータの種類ごとに、実用環境での安定性と信頼性に関するさらなる研究が保証される。
関連論文リスト
- On the Statistical Significance with Relevance Assessments of Large Language Models [2.9180406633632523]
我々は,文書の関連性をラベル付けするために大規模言語モデルを使用し,新しい検索テストコレクションを構築する。
以上の結果から, LLM判定は有意差の大部分を検出できる一方で, 許容数の偽陽性を維持していることが明らかとなった。
本研究は, LLM判定による統計的試験結果の評価における一歩である。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - Empowering Meta-Analysis: Leveraging Large Language Models for Scientific Synthesis [7.059964549363294]
本研究では,大規模言語モデル(LLM)を用いた科学文献におけるメタアナリシスの自動化について検討する。
ビッグデータ処理と構造化データ抽出の課題に対処するため,LLMを広範囲の科学的データセットに微調整する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-16T20:18:57Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review [42.112100361891905]
本研究では,Large Language Models (LLMs) の科学的レビュー作成過程における使用法を要約することを目的とする。
我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。
論文 参考訳(メタデータ) (2024-09-06T20:12:57Z) - LLMs as Evaluators: A Novel Approach to Evaluate Bug Report Summarization [9.364214238045317]
大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な機能を示した。
本研究では,LSMがバグレポートの要約を効果的に評価できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-01T06:30:39Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models [19.72316842477808]
我々は,現代の大規模言語モデル (LLM) がこのタスクを確実に実行できるかを評価する。
長い入力を許容できる大規模なLSMは、完全に自動メタ分析を実現するために、微妙に近い。
論文 参考訳(メタデータ) (2024-05-02T19:20:11Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。