論文の概要: EvidenceBench: A Benchmark for Extracting Evidence from Biomedical Papers
- arxiv url: http://arxiv.org/abs/2504.18736v1
- Date: Fri, 25 Apr 2025 23:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.966266
- Title: EvidenceBench: A Benchmark for Extracting Evidence from Biomedical Papers
- Title(参考訳): EvidenceBench: バイオメディカルペーパーから証拠を抽出するためのベンチマーク
- Authors: Jianyou Wang, Weili Cao, Kaicheng Wang, Xiaoyue Wang, Ashish Dalvi, Gino Prasad, Qishan Liang, Hsuan-lin Her, Ming Wang, Qin Yang, Gene W. Yeo, David E. Neal, Maxim Khan, Christopher D. Rosin, Ramamohan Paturi, Leon Bergen,
- Abstract要約: バイオメディカルペーパーにおける仮説に関連する証拠を自動的に発見する作業について検討する。
このタスクでモデルのパフォーマンスを測定するために、EvidenceBenchを導入します。
複数の人間-専門家のアノテーションを用いて,パイプラインの妥当性と精度を示す。
- 参考スコア(独自算出の注目度): 6.016315914361666
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the task of automatically finding evidence relevant to hypotheses in biomedical papers. Finding relevant evidence is an important step when researchers investigate scientific hypotheses. We introduce EvidenceBench to measure models performance on this task, which is created by a novel pipeline that consists of hypothesis generation and sentence-by-sentence annotation of biomedical papers for relevant evidence, completely guided by and faithfully following existing human experts judgment. We demonstrate the pipeline's validity and accuracy with multiple sets of human-expert annotations. We evaluated a diverse set of language models and retrieval systems on the benchmark and found that model performances still fall significantly short of the expert level on this task. To show the scalability of our proposed pipeline, we create a larger EvidenceBench-100k with 107,461 fully annotated papers with hypotheses to facilitate model training and development. Both datasets are available at https://github.com/EvidenceBench/EvidenceBench
- Abstract(参考訳): バイオメディカルペーパーにおける仮説に関連する証拠を自動的に発見する作業について検討する。
科学的仮説を研究する際、関連する証拠を見つけることは重要なステップである。
本研究は,生物医学論文の仮説生成と文・バイ・セマンスアノテーションから構成される新たなパイプラインによって作成され,既存の人間専門家の判断を完全にガイドし,忠実に追従するEvidenceBenchについて紹介する。
複数の人間-専門家のアノテーションを用いて,パイプラインの妥当性と精度を示す。
提案手法は,様々な言語モデルと検索システムをベンチマークで評価した結果,モデルの性能は依然として専門家のレベルにかなり劣っていることがわかった。
提案するパイプラインのスケーラビリティを示すため,モデルトレーニングと開発を容易にするための仮説付き107,461の完全注釈付き論文を含む,より大きなEvidenceBench-100kを作成している。
どちらのデータセットもhttps://github.com/EvidenceBench/EvidenceBenchで利用可能だ。
関連論文リスト
- Retrieving Versus Understanding Extractive Evidence in Few-Shot Learning [4.230202411425062]
大規模言語モデルにおける文書内証拠の検索と解釈の関係を解析する。
ラベル予測とエビデンス検索の誤りが関連する証拠の質に起因するかどうかを2つのアブレーション研究により調査する。
論文 参考訳(メタデータ) (2025-02-19T20:48:09Z) - Measuring Risk of Bias in Biomedical Reports: The RoBBR Benchmark [2.0605929006983454]
本稿では,バイオメディカルペーパーの方法論的強度を測定するためのベンチマークを提案する。
500以上の論文から得られたベンチマークタスクは、研究手法の分析と、バイアスのリスクの評価をカバーしている。
ベンチマークの結果,これらのモデルが専門家レベルの性能にかなり劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-28T00:21:31Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction [15.246183329778656]
ドキュメントレベルの関係抽出(DocRE)は、構造化されていない文書テキストからエンティティ間の関係を抽出することを目的としている。
これらの課題を克服するために,DocREの新しいモデルであるGEGAを提案する。
我々は、広く使用されている3つのベンチマークデータセット、DocRED、Re-DocRED、Revisit-DocREDでGEGAモデルを評価する。
論文 参考訳(メタデータ) (2024-07-31T07:15:33Z) - Dyport: Dynamic Importance-based Hypothesis Generation Benchmarking
Technique [2.0077755400451855]
本稿では,バイオメディカル仮説生成システムを評価するためのベンチマークフレームワークDyportを提案する。
我々は、キュレートされたデータベースからの知識を動的グラフに統合し、発見の重要性を定量化する手法を伴っている。
フレキシブルなベンチマークシステムは,仮説生成の品質検証に広く適用するために設計されている。
論文 参考訳(メタデータ) (2023-12-06T06:07:50Z) - Complex Claim Verification with Evidence Retrieved in the Wild [73.19998942259073]
Webから生の証拠を取り出すことによって,実世界のクレームをチェックするための,最初の完全自動化パイプラインを提示する。
私たちのパイプラインには,クレーム分解,生文書検索,きめ細かい証拠検索,クレーム中心の要約,正確性判定という5つのコンポーネントが含まれています。
論文 参考訳(メタデータ) (2023-05-19T17:49:19Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z) - Weakly- and Semi-supervised Evidence Extraction [107.47661281843232]
本稿では,エビデンス抽出の課題に対して,いくつかのエビデンスアノテーションと豊富な文書レベルラベルを組み合わせた新たな手法を提案する。
私たちのアプローチは、数百のエビデンスアノテーションでかなりの利益をもたらします。
論文 参考訳(メタデータ) (2020-11-03T04:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。