論文の概要: Expediting data extraction using a large language model (LLM) and scoping review protocol: a methodological study within a complex scoping review
- arxiv url: http://arxiv.org/abs/2507.06623v1
- Date: Wed, 09 Jul 2025 07:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.510951
- Title: Expediting data extraction using a large language model (LLM) and scoping review protocol: a methodological study within a complex scoping review
- Title(参考訳): 大規模言語モデル(LLM)とスコーピングレビュープロトコルを用いたデータ抽出の高速化:複雑なスコーピングレビューにおける方法論的研究
- Authors: James Stewart-Evans, Emma Wilson, Tessa Langley, Andrew Prayle, Angela Hands, Karen Exley, Jo Leonardi-Bee,
- Abstract要約: レビューのデータ抽出段階はリソース集約である。
研究者たちは、オンライン(大規模言語モデル)のLLMとレビュープロトコルを使用して、データ抽出をエキサイティングにする方法を模索するかもしれない。
複雑なスコープレビュー、オープンレスポンスタイプ、方法論的なアプローチのコンテキストは、欠落したデータや不正なデータによってパフォーマンスに影響を与えました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The data extraction stages of reviews are resource-intensive, and researchers may seek to expediate data extraction using online (large language models) LLMs and review protocols. Claude 3.5 Sonnet was used to trial two approaches that used a review protocol to prompt data extraction from 10 evidence sources included in a case study scoping review. A protocol-based approach was also used to review extracted data. Limited performance evaluation was undertaken which found high accuracy for the two extraction approaches (83.3% and 100%) when extracting simple, well-defined citation details; accuracy was lower (9.6% and 15.8%) when extracting more complex, subjective data items. Considering all data items, both approaches had precision >90% but low recall (<25%) and F1 scores (<40%). The context of a complex scoping review, open response types and methodological approach likely impacted performance due to missed and misattributed data. LLM feedback considered the baseline extraction accurate and suggested minor amendments: four of 15 (26.7%) to citation details and 8 of 38 (21.1%) to key findings data items were considered to potentially add value. However, when repeating the process with a dataset featuring deliberate errors, only 2 of 39 (5%) errors were detected. Review-protocol-based methods used for expediency require more robust performance evaluation across a range of LLMs and review contexts with comparison to conventional prompt engineering approaches. We recommend researchers evaluate and report LLM performance if using them similarly to conduct data extraction or review extracted data. LLM feedback contributed to protocol adaptation and may assist future review protocol drafting.
- Abstract(参考訳): レビューのデータの抽出段階はリソース集約的であり、研究者はオンライン(大規模言語モデル)のLLMとレビュープロトコルを使用してデータ抽出をエキサイティングしようとするかもしれない。
Claude 3.5 Sonnetは、ケーススタディのスコーピングレビューに含まれる10のエビデンスソースからデータ抽出を促すために、レビュープロトコルを使用した2つのアプローチを試すために使用された。
プロトコルベースのアプローチは、抽出されたデータをレビューするためにも使用された。
2つの抽出手法(83.3%と100%)において、単純で明確に定義された引用の詳細を抽出する場合の精度が低く、より複雑な主観的データ項目を抽出する場合の精度は9.6%と15.8%に低下した。
すべてのデータ項目を考慮すると、どちらのアプローチも精度は90%程度であったが、リコール率が低い(<25%)とF1スコアが低い(<40%)であった。
複雑なスコープレビュー、オープンレスポンスタイプ、方法論的なアプローチのコンテキストは、欠落したデータや不正なデータによってパフォーマンスに影響を与えました。
LLMのフィードバックはベースライン抽出の正確さを考慮し、引用の詳細については15点中4点(26.7%)、重要な発見データには38点中8点(21.1%)が付加価値として検討された。
しかし、意図的なエラーを特徴とするデータセットでプロセスを繰り返すと、39件(5%)のエラーしか検出されなかった。
反復性のためのレビュープロトコールベースの手法は、従来のプロンプトエンジニアリング手法と比較して、様々なLLMおよびレビューコンテキストにおいてより堅牢な性能評価を必要とする。
研究者は、データ抽出や抽出データのレビューに類似した手法を用いて、LCMの性能を評価し、報告することを推奨する。
LLMのフィードバックはプロトコルの適応に寄与し、将来のレビュープロトコルの草案作成を支援する。
関連論文リスト
- Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。
特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Traceable LLM-based validation of statements in knowledge graphs [0.0]
本稿では,LPMを用いたRDFトリプルの検証手法を提案する。
LLMは、ユーザプロンプトに対する応答を構築するために使用される情報の起源を、現在確実に特定できないため、我々のアプローチは、内部のLLMの事実知識を完全に使用することを避けることである。
代わりに、認証されたRDF文は、ウェブ検索またはウィキペディアで検索された外部文書の断片と比較される。
論文 参考訳(メタデータ) (2024-09-11T12:27:41Z) - The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review [42.112100361891905]
本研究では,Large Language Models (LLMs) の科学的レビュー作成過程における使用法を要約することを目的とする。
我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。
論文 参考訳(メタデータ) (2024-09-06T20:12:57Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Extracting Accurate Materials Data from Research Papers with
Conversational Language Models and Prompt Engineering [0.0]
ChatExtractは、初期作業とバックグラウンドを最小限にして、非常に正確なデータ抽出を完全に自動化することができる。
材料データに対するテストでは、最高の会話型LLMから90%近い精度とリコールが得られます。
論文 参考訳(メタデータ) (2023-03-07T17:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。