論文の概要: PubMedCausal: A Span-Level Annotated Corpus for Causal Relation Extraction in Biomedical Text
- arxiv url: http://arxiv.org/abs/2605.28363v1
- Date: Wed, 27 May 2026 11:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.026968
- Title: PubMedCausal: A Span-Level Annotated Corpus for Causal Relation Extraction in Biomedical Text
- Title(参考訳): PubMedCausal: バイオメディカルテキストにおける因果関係抽出のためのスパンレベルアノテーションコーパス
- Authors: Ifeoluwa Kunle-John, Josiah Paul, Oluwatosin Agbaakin, Peter Aina, Ikenna Odezuligbo, Sydney Anuyah,
- Abstract要約: 因果関係抽出はバイオメディカルテキストマイニングの中心である。
PubMedの抽象化から構築したバイオメディカルCREのための,スパンレベルアノテートコーパスであるPubMedCausalを紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Causal relation extraction (CRE) is central to biomedical text mining, but current resources often conflate causal relations with broader associations, restrict annotation to sentence-level examples, or focus mainly on explicit causal cues. This limits their usefulness for evaluating whether models can recover causal claims as they are actually expressed in biomedical text. We introduce PubMedCausal, a span-level annotated corpus for biomedical CRE built from PubMed abstracts. The corpus contains 30,000 paragraph-level rows, including 3,945 causal rows and 6,491 adjudicated cause--effect pairs. Each causal relation is annotated with full-text cause and effect spans, causality type, and sententiality, enabling evaluation of both causal detection and full-span causal extraction. We benchmark discriminative encoders and open-source generative models across detection and extraction settings. For causal detection, biomedical encoders are strongest, with PubMedBERT reaching an F$_1$ score of 0.7391. For span-level extraction, the best generative baseline is DeepSeek-R1-32B with few-shot prompting, reaching a Cosine Pair F$_1$ of 0.6765. We further test transfer learning by evaluating PubMedCausal-trained encoders on external causal relation datasets, showing that the resource supports cross-dataset evaluation. Our results show that biomedical CRE remains difficult under class imbalance, long causal spans, implicit causality, inter-sentential relations, and prompt sensitivity. Code and Data can be found here: https://github.com/josiahpaul07/PubMedCausal_Exp
- Abstract(参考訳): 因果関係抽出(CRE)は、生物医学的テキストマイニングの中心であるが、現在の資源は、より広い関連性と因果関係を詳述したり、注釈を文レベルの例に制限したり、主に明示的な因果関係に焦点をあてることが多い。
これにより、バイオメディカルテキストで実際に表現されているように、モデルが因果関係を回復できるかどうかを評価する上での有用性が制限される。
PubMedの抽象化から構築したバイオメディカルCREのための,スパンレベルアノテートコーパスであるPubMedCausalを紹介した。
コーパスには3,945行の因果行と6,491対の随伴因果関係を含む3万行の段落が含まれている。
それぞれの因果関係には、フルテキストの因果関係と効果範囲、因果関係の型、知覚性があり、因果関係の検出とフルスパン因果抽出の両方の評価を可能にする。
我々は、識別エンコーダとオープンソースの生成モデルを、検出および抽出設定にわたってベンチマークする。
因果検出では、バイオメディカルエンコーダが最も強く、PubMedBERTはF$_1$スコア0.7391に達する。
スパンレベルの抽出では、最も優れた生成基線はDeepSeek-R1-32Bで、数発のプロンプトでコサインペアF$_1$0.6765に達する。
我々は、外部因果関係データセット上でPubMedCausalで訓練されたエンコーダを評価し、リソースがクロスデータセット評価をサポートすることを示す。
以上の結果より,集団不均衡,長い因果関係,暗黙の因果関係,文間関係,即時感受性において,生医学的CREは依然として困難であることが示唆された。
コードとデータはここにある。 https://github.com/josiahpaul07/PubMedCausal_Exp
関連論文リスト
- MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts [6.305549902494417]
MedConclusionは、バイオメディカルな結論生成のための構造化抽象化の大規模データセットである。
各インスタンスは、抽象的でない部分とオリジナルの著者による結論とをペアリングする。
MedConclusionには、バイオメディカルカテゴリやSJRといったジャーナルレベルのメタデータも含まれている。
論文 参考訳(メタデータ) (2026-04-07T22:34:02Z) - Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文 参考訳(メタデータ) (2025-03-11T17:59:00Z) - Discovering and Reasoning of Causality in the Hidden World with Large Language Models [109.62442253177376]
我々はCausal representatiOn AssistanT(COAT)と呼ばれる新しいフレームワークを開発し、因果発見に有用な測定変数を提案する。
大規模言語モデル (LLM) と因果関係を直接推論する代わりに、COAT は中間因果発見結果から LLM へのフィードバックを構築し、提案した変数を洗練させる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。
メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。
長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - Benchingmaking Large Langage Models in Biomedical Triple Extraction [13.022101126299269]
本研究は主に文レベルのバイオメディカルトリプル抽出に焦点を当てている。
高品質なバイオメディカルトリプル抽出データセットが存在しないことは、堅牢なトリプル抽出システムの開発の進歩を妨げている。
GITは、専門家によるバイオメディカルトリプル抽出データセットである。
論文 参考訳(メタデータ) (2023-10-27T20:15:23Z) - Inducing Causal Structure for Abstractive Text Summarization [76.1000380429553]
要約データの因果構造を誘導する構造因果モデル(SCM)を導入する。
本稿では因果的要因を模倣できる因果的表現を学習するための因果性インスピレーション付き系列列列モデル(CI-Seq2Seq)を提案する。
2つの広く使われているテキスト要約データセットの実験結果は、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-08-24T16:06:36Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Knowledge-based Extraction of Cause-Effect Relations from Biomedical
Text [37.06925225826795]
我々のアプローチは、因果的引き金を発見する教師なし機械学習技術と、高精度な言語規則の組み合わせである。
568,528文からなる58,761個の白血病関連PubMed抽象語を用いたアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-10T14:31:46Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。