論文の概要: What Level of Automation is "Good Enough"? A Benchmark of Large Language Models for Meta-Analysis Data Extraction
- arxiv url: http://arxiv.org/abs/2507.15152v1
- Date: Sun, 20 Jul 2025 23:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.217941
- Title: What Level of Automation is "Good Enough"? A Benchmark of Large Language Models for Meta-Analysis Data Extraction
- Title(参考訳): 自動化のレベルは「十分すぎる」か?メタ分析データ抽出のための大規模言語モデルのベンチマーク
- Authors: Lingbo Li, Anuradha Mathrani, Teo Susnjak,
- Abstract要約: 本研究は, 統計結果, リスク・オブ・バイアス評価, 研究レベルの諸課題における3つのLCMの実用的性能を評価する。
抽出品質を改善する方法を決定するために,4つの異なるプロンプト戦略を検証した。
カスタマイズされたプロンプトが最も効果的で 最大15%のリコールを加速しました
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automating data extraction from full-text randomised controlled trials (RCTs) for meta-analysis remains a significant challenge. This study evaluates the practical performance of three LLMs (Gemini-2.0-flash, Grok-3, GPT-4o-mini) across tasks involving statistical results, risk-of-bias assessments, and study-level characteristics in three medical domains: hypertension, diabetes, and orthopaedics. We tested four distinct prompting strategies (basic prompting, self-reflective prompting, model ensemble, and customised prompts) to determine how to improve extraction quality. All models demonstrate high precision but consistently suffer from poor recall by omitting key information. We found that customised prompts were the most effective, boosting recall by up to 15\%. Based on this analysis, we propose a three-tiered set of guidelines for using LLMs in data extraction, matching data types to appropriate levels of automation based on task complexity and risk. Our study offers practical advice for automating data extraction in real-world meta-analyses, balancing LLM efficiency with expert oversight through targeted, task-specific automation.
- Abstract(参考訳): メタ分析のためのフルテキストランダム化制御試験(RCT)からのデータ抽出を自動化することは、依然として大きな課題である。
本研究は, 高血圧, 糖尿病, 整形外科の3つの領域において, 統計的結果, リスク・オブ・バイアス評価, 研究レベルの諸課題における3つのLSM(Gemini-2.0-flash, Grok-3, GPT-4o-mini)の実用性を評価する。
抽出品質を改善する方法を決定するために,4つの異なるプロンプト戦略(基本的プロンプト,自己反射的プロンプト,モデルアンサンブル,カスタマイズされたプロンプト)を検証した。
すべてのモデルは高い精度を示すが、キー情報を省略することで不適切なリコールに悩まされる。
カスタマイズされたプロンプトが最も効果的であり、リコールを最大15倍に向上させることがわかった。
そこで本研究では,データ抽出にLLMを使用するための3段階のガイドラインを提案し,タスクの複雑さとリスクに基づいて,データ型と適切な自動化レベルをマッチングする。
本研究は,実世界のメタアナリシスにおけるデータ抽出を自動化するための実践的アドバイスである。
関連論文リスト
- RICo: Refined In-Context Contribution for Automatic Instruction-Tuning Data Selection [29.459431336830267]
本研究では,タスクレベルとグローバルレベルの両方のモデル性能に対して,個々のサンプルの微細な寄与を定量化する勾配のない手法を提案する。
我々は、RICoスコアに基づいて訓練された軽量な選択パラダイムを導入し、厳密な線形推論の複雑さでスケーラブルなデータ選択を可能にする。
論文 参考訳(メタデータ) (2025-05-08T15:17:37Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - AD-LLM: Benchmarking Large Language Models for Anomaly Detection [50.57641458208208]
本稿では,大規模な言語モデルが異常検出にどのように役立つかを評価する最初のベンチマークであるAD-LLMを紹介する。
我々は、ゼロショット検出、LLMの事前訓練された知識を用いて、タスク固有のトレーニングなしでADを実行すること、データ拡張、ADモデルを改善するために合成データとカテゴリ記述を生成すること、LLMを使用して教師なしADモデルを提案するモデル選択の3つの主要なタスクについて検討する。
論文 参考訳(メタデータ) (2024-12-15T10:22:14Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models [19.72316842477808]
我々は,現代の大規模言語モデル (LLM) がこのタスクを確実に実行できるかを評価する。
長い入力を許容できる大規模なLSMは、完全に自動メタ分析を実現するために、微妙に近い。
論文 参考訳(メタデータ) (2024-05-02T19:20:11Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。