論文の概要: Benchmarking LLMs for Pairwise Causal Discovery in Biomedical and Multi-Domain Contexts
- arxiv url: http://arxiv.org/abs/2601.15479v1
- Date: Wed, 21 Jan 2026 21:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.420469
- Title: Benchmarking LLMs for Pairwise Causal Discovery in Biomedical and Multi-Domain Contexts
- Title(参考訳): バイオメディカル・マルチドメインコンテキストにおけるPairwise Causal DiscoveryのためのLCMのベンチマーク
- Authors: Sydney Anuyah, Sneha Shajee-Mohan, Ankit-Singh Chauhan, Sunandan Chakraborty,
- Abstract要約: バイオメディシンのような高レベルの分野における大きな言語モデル(LLM)は、原因と効果を推論できる必要がある。
ベンチマークでは、12の多様なデータセットを使用して、2つのコアスキルを評価します。
textbfCausal Detection (テキストに因果リンクが含まれているかどうかを識別する) および
textbfCausal extract (正確な原因と効果句を抽出する)
- 参考スコア(独自算出の注目度): 0.434964016971127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The safe deployment of large language models (LLMs) in high-stakes fields like biomedicine, requires them to be able to reason about cause and effect. We investigate this ability by testing 13 open-source LLMs on a fundamental task: pairwise causal discovery (PCD) from text. Our benchmark, using 12 diverse datasets, evaluates two core skills: 1) \textbf{Causal Detection} (identifying if a text contains a causal link) and 2) \textbf{Causal Extraction} (pulling out the exact cause and effect phrases). We tested various prompting methods, from simple instructions (zero-shot) to more complex strategies like Chain-of-Thought (CoT) and Few-shot In-Context Learning (FICL). The results show major deficiencies in current models. The best model for detection, DeepSeek-R1-Distill-Llama-70B, only achieved a mean score of 49.57\% ($C_{detect}$), while the best for extraction, Qwen2.5-Coder-32B-Instruct, reached just 47.12\% ($C_{extract}$). Models performed best on simple, explicit, single-sentence relations. However, performance plummeted for more difficult (and realistic) cases, such as implicit relationships, links spanning multiple sentences, and texts containing multiple causal pairs. We provide a unified evaluation framework, built on a dataset validated with high inter-annotator agreement ($κ\ge 0.758$), and make all our data, code, and prompts publicly available to spur further research. \href{https://github.com/sydneyanuyah/CausalDiscovery}{Code available here: https://github.com/sydneyanuyah/CausalDiscovery}
- Abstract(参考訳): 大規模言語モデル(LLM)をバイオメディシンのような高レベルな分野に安全に展開するには、原因と効果を推論する必要がある。
テキストからのペア因果発見(PCD)という,13のオープンソース LLM を基本課題として,本能力を検証した。
私たちのベンチマークでは、12の多様なデータセットを使用して、2つのコアスキルを評価しています。
1) \textbf{Causal Detection} (テキストに因果リンクが含まれているかどうかを識別)
2) \textbf{Causal extract} (正確な原因及び効果句を抽出する)
簡単な命令(ゼロショット)から、Chain-of-Thought(CoT)やFew-shot In-Context Learning(FICL)といった複雑な戦略まで、さまざまなプロンプト手法を試した。
その結果,現在のモデルでは大きな欠陥がみられた。
検出のための最良のモデルであるDeepSeek-R1-Distill-Llama-70Bは49.57 %(C_{detect}$)のスコアしか得られなかったが、抽出のためのQwen2.5-Coder-32B-Instructは47.12 %(C_{extract}$)に達した。
モデルは単純で明示的で単文関係が最もよく機能した。
しかし、暗黙の関係、複数の文にまたがるリンク、複数の因果対を含むテキストなど、より難しい(そして現実的な)ケースではパフォーマンスが急落した。
我々は、高アノテータ契約(κ\ge 0.758$)で検証されたデータセット上に構築された統一された評価フレームワークを提供し、さらなる研究を促進するために、すべてのデータ、コード、プロンプトを公開しています。
https://github.com/sydneyanuyah/CausalDiscovery}{Code can available here: https://github.com/sydneyanuyah/CausalDiscovery}
関連論文リスト
- CodeContests-O: Powering LLMs via Feedback-Driven Iterative Test Case Generation [71.42965967582147]
既存のアプローチは、Large Language Models (LLM) を用いたテストケースの合成を試みる
包括的なテストケース構築のために、textbfFeedback-Bench Iterative Framework$を提案します。
私たちのデータセットは、平均的真正率(TPR)が89.37%、真負率(TNR)が90.89%で、CodeContestsとCodeContests+をそれぞれ4.32%、9.37%で大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-20T07:32:44Z) - Assertion-Aware Test Code Summarization with Large Language Models [0.0]
単体テストは、テスト意図を伝える簡潔な要約を欠くことが多い。
本稿では,開発者による要約と組み合わせた実世界のJavaテストケース91のベンチマークを示す。
論文 参考訳(メタデータ) (2025-11-09T04:58:32Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs [12.878608250420832]
Retrieval-augmented Generation (RAG)は、再活性化されたLarge Language Models (LLM)である。
長文グローバル要約のためのRAGを強化するために,$textitgraph of record$$(textbfGoR$)を提案する。
GoRには、$textitgraph Neural Network$と、セルフ教師付きモデルトレーニングのための、詳しく設計された$textitBERTScore$ベースの目的がある。
論文 参考訳(メタデータ) (2024-10-14T18:34:29Z) - 1Cademy @ Causal News Corpus 2022: Enhance Causal Span Detection via
Beam-Search-based Position Selector [31.170220710119327]
症例2022における共有タスク3citetan-etal-2022-eventのサブタスク2について, 原因効果信号スパン検出のアプローチを提案する。
本稿では,タスクを読み取り理解(RC)問題としてモデル化し,トークンレベルRCベースのスパン予測パラダイムをベースラインとして適用する。
論文 参考訳(メタデータ) (2022-10-31T09:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。