Fugu-MT 論文翻訳(概要): Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models

論文の概要: Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models

arxiv url: http://arxiv.org/abs/2405.01686v2
Date: Thu, 25 Jul 2024 03:29:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-26 18:57:36.041181
Title: Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたランダム化制御試行からの自動抽出
Authors: Hye Sun Yun, David Pogrebitskiy, Iain J. Marshall, Byron C. Wallace,
Abstract要約: 我々は,現代の大規模言語モデル (LLM) がこのタスクを確実に実行できるかを評価する。長い入力を許容できる大規模なLSMは、完全に自動メタ分析を実現するために、微妙に近い。
参考スコア（独自算出の注目度）: 19.72316842477808
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Meta-analyses statistically aggregate the findings of different randomized controlled trials (RCTs) to assess treatment effectiveness. Because this yields robust estimates of treatment effectiveness, results from meta-analyses are considered the strongest form of evidence. However, rigorous evidence syntheses are time-consuming and labor-intensive, requiring manual extraction of data from individual trials to be synthesized. Ideally, language technologies would permit fully automatic meta-analysis, on demand. This requires accurately extracting numerical results from individual trials, which has been beyond the capabilities of natural language processing (NLP) models to date. In this work, we evaluate whether modern large language models (LLMs) can reliably perform this task. We annotate (and release) a modest but granular evaluation dataset of clinical trial reports with numerical findings attached to interventions, comparators, and outcomes. Using this dataset, we evaluate the performance of seven LLMs applied zero-shot for the task of conditionally extracting numerical findings from trial reports. We find that massive LLMs that can accommodate lengthy inputs are tantalizingly close to realizing fully automatic meta-analysis, especially for dichotomous (binary) outcomes (e.g., mortality). However, LLMs -- including ones trained on biomedical texts -- perform poorly when the outcome measures are complex and tallying the results requires inference. This work charts a path toward fully automatic meta-analysis of RCTs via LLMs, while also highlighting the limitations of existing models for this aim.
Abstract（参考訳）: メタアナリシスは、異なるランダム化制御試験(RCT)の結果を統計的に集計し、治療効果を評価する。これは治療効果の頑健な評価をもたらすため、メタアナリシスの結果は最も強力な証拠であると考えられている。しかし、厳密な証拠合成は時間がかかり、労働集約的であり、個々の試験から手動でデータを抽出する必要がある。理想的には、言語技術はオンデマンドで完全に自動的なメタ分析を可能にする。これは、自然言語処理(NLP)モデルの能力を超えてきた個々の試行から、正確に数値的な結果を抽出する必要がある。本研究では,現代の大規模言語モデル (LLM) がこのタスクを確実に実行できるかを評価する。介入, コンパレータ, 結果に付随する数値的な所見を伴い, 臨床試験報告の質素で粒度のよい評価データセットを注釈(およびリリース)する。本データセットを用いて,実験報告から数値結果を条件付き抽出する作業において,ゼロショットを用いた7つのLLMの性能評価を行った。長い入力を許容できる大規模なLLMは, 完全自動メタアナリシスの実現に極めて近いことが判明した。しかし、バイオメディカルテキストで訓練されたものを含むLSMは、結果が複雑で、結果の推測が要求される場合、パフォーマンスが低下する。この研究は、LLMによるRTTの完全自動メタ分析への道筋をグラフ化し、既存のモデルの限界を強調した。

関連論文リスト

What Level of Automation is "Good Enough"? A Benchmark of Large Language Models for Meta-Analysis Data Extraction [0.3441021278275805]
本研究は, 統計結果, リスク・オブ・バイアス評価, 研究レベルの諸課題における3つのLCMの実用的性能を評価する。抽出品質を改善する方法を決定するために,4つの異なるプロンプト戦略を検証した。カスタマイズされたプロンプトが最も効果的で最大15%のリコールを加速しました
論文参考訳（メタデータ） (2025-07-20T23:09:04Z)
ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文参考訳（メタデータ） (2025-06-30T05:11:19Z)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Evaluating The Performance of Using Large Language Models to Automate Summarization of CT Simulation Orders in Radiation Oncology [3.0048953993445586]
本研究の目的は,大規模言語モデル(LLM)を用いて,CTシミュレーションの順序から要約を生成することである。ローカルにホストされたLlama 3.1 405Bモデルを使用して、CTシミュレーションの順序からキーワードを抽出し、要約を生成する。 LLM生成サマリーの精度は, 基礎事実を基準として, セラピストによって評価された。
論文参考訳（メタデータ） (2025-01-27T18:47:58Z)
Empowering Meta-Analysis: Leveraging Large Language Models for Scientific Synthesis [7.059964549363294]
本研究では,大規模言語モデル(LLM)を用いた科学文献におけるメタアナリシスの自動化について検討する。ビッグデータ処理と構造化データ抽出の課題に対処するため,LLMを広範囲の科学的データセットに微調整する新たなアプローチを提案する。
論文参考訳（メタデータ） (2024-11-16T20:18:57Z)
Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文参考訳（メタデータ） (2024-09-15T15:21:45Z)
A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。 ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文参考訳（メタデータ） (2024-08-29T17:46:18Z)
When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文参考訳（メタデータ） (2024-08-15T03:56:40Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。その結果,約80%の精度で,領域間での変動が認められた。
論文参考訳（メタデータ） (2024-05-23T11:24:23Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
Jointly Extracting Interventions, Outcomes, and Findings from RCT Reports with LLMs [21.868871974136884]
本研究では,命令調整型大規模言語モデルに基づくテキスト・テキスト・モデルの提案と評価を行う。我々は,2022年中頃に公開されたRCTのコレクションにモデルを適用し,構造化された結果の検索可能なデータベースをリリースする。
論文参考訳（メタデータ） (2023-05-05T16:02:06Z)
An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (2023-04-17T17:13:42Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。