Fugu-MT 論文翻訳(概要): MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

論文の概要: MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

arxiv url: http://arxiv.org/abs/2604.06505v1
Date: Tue, 07 Apr 2026 22:34:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.263579
Title: MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts
Title（参考訳）: MedConclusion: 構造化抽象物から生医学的結束生成のためのベンチマーク
Authors: Weiyue Li, Ruizhi Qian, Yi Li, Yongce Li, Yunfan Long, Jiahui Cai, Yan Luo, Mengyu Wang,
Abstract要約: MedConclusionは、バイオメディカルな結論生成のための構造化抽象化の大規模データセットである。各インスタンスは、抽象的でない部分とオリジナルの著者による結論とをペアリングする。 MedConclusionには、バイオメディカルカテゴリやSJRといったジャーナルレベルのメタデータも含まれている。
参考スコア（独自算出の注目度）: 6.305549902494417
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are widely explored for reasoning-intensive research tasks, yet resources for testing whether they can infer scientific conclusions from structured biomedical evidence remain limited. We introduce $\textbf{MedConclusion}$, a large-scale dataset of $\textbf{5.7M}$ PubMed structured abstracts for biomedical conclusion generation. Each instance pairs the non-conclusion sections of an abstract with the original author-written conclusion, providing naturally occurring supervision for evidence-to-conclusion reasoning. MedConclusion also includes journal-level metadata such as biomedical category and SJR, enabling subgroup analysis across biomedical domains. As an initial study, we evaluate diverse LLMs under conclusion and summary prompting settings and score outputs with both reference-based metrics and LLM-as-a-judge. We find that conclusion writing is behaviorally distinct from summary writing, strong models remain closely clustered under current automatic metrics, and judge identity can substantially shift absolute scores. MedConclusion provides a reusable data resource for studying scientific evidence-to-conclusion reasoning. Our code and data are available at: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.
Abstract（参考訳）: 大規模言語モデル(LLM)は推論集約的な研究タスクのために広く研究されているが、構造化された生物医学的証拠から科学的結論を推測できるかどうかをテストするための資源は限られている。我々は、バイオメディカルな結論生成のために、$\textbf{5.7M}$ PubMed構造化抽象化の大規模データセットである$\textbf{MedConclusion}$を紹介した。各インスタンスは、抽象的な非包括的セクションとオリジナルの著者による結論とをペアリングし、エビデンスと包括的推論の自然発生的な監督を提供する。 MedConclusionには、バイオメディカルカテゴリやSJRなどのジャーナルレベルのメタデータも含まれており、バイオメディカルドメインのサブグループ分析を可能にしている。本研究は, 基準基準とLCM-as-a-judgeの両方を用いて, 結論と要約に基づく多様なLCMの評価を行い, 評価を行った。結論記述は要約記述とは行動的に異なり、強いモデルは現在の自動測定値の下で密にクラスタ化され、識別アイデンティティは絶対スコアを実質的にシフトすることができる。 MedConclusionは科学的エビデンスから結論への推論を研究するために再利用可能なデータリソースを提供する。私たちのコードとデータは、https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.comで公開されています。

論文の概要: MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts

関連論文リスト