論文の概要: MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts
- arxiv url: http://arxiv.org/abs/2604.06505v1
- Date: Tue, 07 Apr 2026 22:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.263579
- Title: MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts
- Title(参考訳): MedConclusion: 構造化抽象物から生医学的結束生成のためのベンチマーク
- Authors: Weiyue Li, Ruizhi Qian, Yi Li, Yongce Li, Yunfan Long, Jiahui Cai, Yan Luo, Mengyu Wang,
- Abstract要約: MedConclusionは、バイオメディカルな結論生成のための構造化抽象化の大規模データセットである。
各インスタンスは、抽象的でない部分とオリジナルの著者による結論とをペアリングする。
MedConclusionには、バイオメディカルカテゴリやSJRといったジャーナルレベルのメタデータも含まれている。
- 参考スコア(独自算出の注目度): 6.305549902494417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce $\textbf{MedConclusion}$, a large-scale dataset of $\textbf{5.7M}$ PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論集約的な研究タスクのために広く研究されているが、構造化された生物医学的証拠から科学的結論を推測できるかどうかをテストするための資源は限られている。
我々は、バイオメディカルな結論生成のために、$\textbf{5.7M}$ PubMed構造化抽象化の大規模データセットである$\textbf{MedConclusion}$を紹介した。
各インスタンスは、抽象的な非包括的セクションとオリジナルの著者による結論とをペアリングし、エビデンスと包括的推論の自然発生的な監督を提供する。
MedConclusionには、バイオメディカルカテゴリやSJRなどのジャーナルレベルのメタデータも含まれており、バイオメディカルドメインのサブグループ分析を可能にしている。
本研究は, 基準基準とLCM-as-a-judgeの両方を用いて, 結論と要約に基づく多様なLCMの評価を行い, 評価を行った。
結論記述は要約記述とは行動的に異なり、強いモデルは現在の自動測定値の下で密にクラスタ化され、識別アイデンティティは絶対スコアを実質的にシフトすることができる。
MedConclusionは科学的エビデンスから結論への推論を研究するために再利用可能なデータリソースを提供する。
私たちのコードとデータは、https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.comで公開されています。
関連論文リスト
- Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。
メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。
長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z) - MS2: Multi-Document Summarization of Medical Studies [11.38740406132287]
MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。
このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。
早期成果を期待して,BARTに基づく要約システムを実験した。
論文 参考訳(メタデータ) (2021-04-13T19:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。