論文の概要: Context Selection for Hypothesis and Statistical Evidence Extraction from Full-Text Scientific Articles
- arxiv url: http://arxiv.org/abs/2603.21193v1
- Date: Sun, 22 Mar 2026 12:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.287023
- Title: Context Selection for Hypothesis and Statistical Evidence Extraction from Full-Text Scientific Articles
- Title(参考訳): 全文科学論文から仮説と統計的証拠を抽出する文脈選択
- Authors: Sai Koneru, Jian Wu, Sarah Rajtmajer,
- Abstract要約: 論文の要約における一次発見の文が、論文本体の対応する仮説文に関連付けられている、逐次全文抽出設定について検討する。
対象のコンテキスト選択は、全文プロンプトに対する仮説抽出を一貫して改善する。
オラクルの段落でさえ、パフォーマンスは穏やかであり、ハイブリッドな数値-テクスチュアルステートメントを扱う際に、永続的な抽出子制限を示す。
- 参考スコア(独自算出の注目度): 7.537972017257894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting hypotheses and their supporting statistical evidence from full-text scientific articles is central to the synthesis of empirical findings, but remains difficult due to document length and the distribution of scientific arguments across sections of the paper. The work studies a sequential full-text extraction setting, where the statement of a primary finding in an article's abstract is linked to (i) a corresponding hypothesis statement in the paper body and (ii) the statistical evidence that supports or refutes that hypothesis. This formulation induces a challenging within-document retrieval setting in which many candidate paragraphs are topically related to the finding but differ in rhetorical role, creating hard negatives for retrieval and extraction. Using a two-stage retrieve-and-extract framework, we conduct a controlled study of retrieval design choices, varying context quantity, context quality (standard Retrieval Augmented Generation, reranking, and a fine-tuned retriever paired with reranking), as well as an oracle paragraph setting to separate retrieval failures from extraction limits across four Large Language Model extractors. We find that targeted context selection consistently improves hypothesis extraction relative to full-text prompting, with gains concentrated in configurations that optimize retrieval quality and context cleanliness. In contrast, statistical evidence extraction remains substantially harder. Even with oracle paragraphs, performance remains moderate, indicating persistent extractor limitations in handling hybrid numeric-textual statements rather than retrieval failures alone.
- Abstract(参考訳): フルテキストの科学的論文から仮説を抽出し、その統計的証拠を裏付けることは、経験的発見の合成の中心であるが、文書の長さと論文のセクション間での科学的議論の分配が困難である。
論文は、記事の要約における一次発見のステートメントがリンクされる、逐次的な全文抽出設定を研究する。
一 書面本体及び書面における対応する仮説文
二 その仮説を支持し、又は否定する統計的証拠
この定式化は、多くの候補段落が発見とトポロジカルな関係にあるが、修辞的役割が異なる、難解な文書内検索環境を誘導し、検索と抽出の難易度を創出する。
2段階の検索・抽出フレームワークを用いて、検索設計の選択、文脈量の変化、文脈品質(標準的な検索・拡張生成、再ランク付け、微調整された検索)、および4つの大言語モデル抽出器間の抽出限界から検索障害を分離するためのオラクルの段落を設定する。
対象のコンテキスト選択は、全文プロンプトに対する仮説抽出を一貫して改善し、検索品質とコンテキスト清浄度を最適化する構成に集中していることがわかった。
対照的に、統計的証拠の抽出は依然としてかなり困難である。
オラクルの段落であっても、性能は中途半端であり、検索障害のみではなく、ハイブリッドな数値文を扱う場合の抽出器の制限が持続していることを示している。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - A Statistical Exploration of Text Partition Into Constituents: The Case
of the Priestly Source in the Books of Genesis and Exodus [1.8780017602640042]
本稿では, テクストのテクスト探索のためのパイプラインを提案し, テクストのスタイメオグラフィーに基づく説明と, テキストの仮定分割の統計的検証を行う。
私たちは、聖書の最初の2冊の本にパイプラインを適用し、そこでは1つの様式的な要素が聖書学者、すなわちプリーストリーの構成要素の目の前で際立っている。
論文 参考訳(メタデータ) (2023-05-03T15:07:42Z) - Abstract, Rationale, Stance: A Joint Model for Scientific Claim
Verification [18.330265729989843]
我々は,3つのタスクのモジュールを,機械読解フレームワークを用いて共同で学習するアプローチをARSJointとして提案する。
ベンチマークデータセットSciFactの実験結果は、我々のアプローチが既存の作業より優れていることを示している。
論文 参考訳(メタデータ) (2021-09-13T10:07:26Z) - At Which Level Should We Extract? An Empirical Analysis on Extractive
Document Summarization [110.54963847339775]
本研究は,全文を抽出する際,不必要な問題や冗長性が存在することを示す。
選挙区解析木に基づくサブセグメント単位の抽出を提案する。
論文 参考訳(メタデータ) (2020-04-06T13:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。