論文の概要: Enhancing Study-Level Inference from Clinical Trial Papers via RL-based Numeric Reasoning
- arxiv url: http://arxiv.org/abs/2505.22928v1
- Date: Wed, 28 May 2025 22:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.578687
- Title: Enhancing Study-Level Inference from Clinical Trial Papers via RL-based Numeric Reasoning
- Title(参考訳): RLに基づく数値推論による臨床試験紙からの学習レベル推論の促進
- Authors: Massimiliano Pronesti, Michela Lorandi, Paul Flanagan, Oisin Redmon, Anya Belz, Yufang Hou,
- Abstract要約: 我々はその問題を量的推論の1つとして概念化している。
本研究では,数値データ抽出モデルと効果推定成分からなる数値推論システムを開発する。
- 参考スコア(独自算出の注目度): 10.449112615828419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systematic reviews in medicine play a critical role in evidence-based decision-making by aggregating findings from multiple studies. A central bottleneck in automating this process is extracting numeric evidence and determining study-level conclusions for specific outcomes and comparisons. Prior work has framed this problem as a textual inference task by retrieving relevant content fragments and inferring conclusions from them. However, such approaches often rely on shallow textual cues and fail to capture the underlying numeric reasoning behind expert assessments. In this work, we conceptualise the problem as one of quantitative reasoning. Rather than inferring conclusions from surface text, we extract structured numerical evidence (e.g., event counts or standard deviations) and apply domain knowledge informed logic to derive outcome-specific conclusions. We develop a numeric reasoning system composed of a numeric data extraction model and an effect estimate component, enabling more accurate and interpretable inference aligned with the domain expert principles. We train the numeric data extraction model using different strategies, including supervised fine-tuning (SFT) and reinforcement learning (RL) with a new value reward model. When evaluated on the CochraneForest benchmark, our best-performing approach -- using RL to train a small-scale number extraction model -- yields up to a 21% absolute improvement in F1 score over retrieval-based systems and outperforms general-purpose LLMs of over 400B parameters by up to 9%. Our results demonstrate the promise of reasoning-driven approaches for automating systematic evidence synthesis.
- Abstract(参考訳): 医学の体系的レビューは、複数の研究から得られた知見を集約することによって証拠に基づく意思決定において重要な役割を担っている。
このプロセスの自動化における中心的なボトルネックは、数値的な証拠を抽出し、特定の結果と比較のための研究レベルの結論を決定することである。
以前の作業では、関連するコンテンツフラグメントを検索し、それらから結論を推測することで、この問題をテキスト推論タスクとして捉えていた。
しかし、そのようなアプローチは、しばしば浅いテキストの手がかりに依存し、専門家の評価の背後にある基礎となる数値的推論を捉えない。
本研究では,この問題を量的推論の1つとして概念化する。
表面テキストから結論を推測するのではなく、構造化された数値的証拠(例えば、事象数や標準偏差)を抽出し、結果固有の結論を導出するためにドメイン知識情報論理を適用する。
我々は,数値データ抽出モデルと効果推定成分からなる数値推論システムを開発し,より正確で解釈可能な推論を可能にする。
我々は、教師付き微調整(SFT)や強化学習(RL)など、異なる戦略を用いて数値データ抽出モデルを訓練する。
CochraneForestベンチマークで評価すると、RLを使用して小さな数値抽出モデルをトレーニングすることで、検索ベースシステムよりもF1スコアが最大21%向上し、400B以上の汎用LLMを最大9%向上します。
本研究は,体系的エビデンス合成を自動化するための推論駆動アプローチの可能性を実証するものである。
関連論文リスト
- AnesBench: Multi-Dimensional Evaluation of LLM Reasoning in Anesthesiology [47.52685298426068]
麻酔学における大規模言語モデル(LLM)の推論能力を体系的に評価した。
AnesBenchは3段階にわたる麻酔学関連推論を評価するために設計された言語間ベンチマークである。
論文 参考訳(メタデータ) (2025-04-03T08:54:23Z) - Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文 参考訳(メタデータ) (2025-03-11T17:59:00Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Federated Causal Inference: Multi-Study ATE Estimation beyond Meta-Analysis [12.896319628045967]
我々は、中央に分散したデータから治療効果を推定するフェデレート因果推論(Federated Causal Inference)について検討する。
プラグインG-Formulaから得られた平均治療効果(ATE)推定器の3つのクラスを比較した。
論文 参考訳(メタデータ) (2024-10-22T10:19:17Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Key Design Choices in Source-Free Unsupervised Domain Adaptation: An
In-depth Empirical Analysis [16.0130560365211]
本研究では、画像分類におけるSF-UDA(Source-Free Unsupervised Domain Adaptation)のベンチマークフレームワークを提供する。
この研究は、さまざまなSF-UDAテクニックを実証的に検証し、データセット間の一貫性を評価する。
トレーニング済みのデータセットと戦略を徹底的に評価し、特に教師付きおよび自己監督型の手法に重点を置いている。
論文 参考訳(メタデータ) (2024-02-25T13:37:36Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - A framework for causal segmentation analysis with machine learning in
large-scale digital experiments [0.0]
本稿では,因果セグメント発見のためのエンドツーエンドの方法論的枠組みを提案する。
提案手法は,(1)サブグループ特異的な治療効果に基づく候補治療の恩恵を受けるためのユーザセグメントの発見,(2)予測されたセグメント特異的な効果や害に基づいて,動的に単位を学習者の治療アームに割り当てることによる因果的影響の評価,の2つの目的を統一する。
論文 参考訳(メタデータ) (2021-11-01T19:22:27Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。