論文の概要: Divide-Prompt-Refine: a Training-Free, Structure-Aware Framework for Biomedical Abstract Generation
- arxiv url: http://arxiv.org/abs/2605.20628v1
- Date: Wed, 20 May 2026 02:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.442956
- Title: Divide-Prompt-Refine: a Training-Free, Structure-Aware Framework for Biomedical Abstract Generation
- Title(参考訳): Divide-Prompt-Refine: バイオメディカル抽象化のためのトレーニング不要な構造認識フレームワーク
- Authors: Sylvey Lin, Joe Menke, Shufan Ming, Dongin Nam, Neil Smalheiser, Halil Kilicoglu,
- Abstract要約: DPR-BAG (Divide, Prompt, Refine for Biomedical Abstract Generation) を提案する。
DPR-BAGは、全文文書をBOMRCスキーマに従って構造化された修辞面に分解する。
厳密な抽出と微調整のベースラインよりも抽象的ノベルティを向上し、事実整合性を維持している。
- 参考スコア(独自算出の注目度): 0.8774270519266251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical abstracts play a critical role in downstream NLP applications, such as information retrieval, biocuration, and biomedical knowledge discovery. However, a non-trivial number of biomedical articles do not have abstracts, diminishing the utility of these articles for downstream tasks. We propose DPR-BAG (Divide, Prompt, and Refine for Biomedical Abstract Generation), a training-free, zero-shot framework that generates coherent and factually grounded abstracts for biomedical articles with full text but no abstract. DPR-BAG decomposes full-text documents into structured rhetorical facets following the Background-Objective-Methods-Results-Conclusions (BOMRC) schema, performs parallel LLM-based summarization for each facet, and applies a final refinement stage to restore global discourse coherence. On PMC-MAD, a distribution-aligned dataset of 46,309 biomedical articles, DPR-BAG improves abstractive novelty over strong extractive and fine-tuned baselines, while maintaining factual consistency. Our ablation study reveals a counterintuitive finding: increasing prompt complexity or explicitly injecting entity-level guidance can degrade factual alignment, highlighting the importance of controlled prompting strategies. These findings underscore the potential of training-free, structure-aware frameworks for scalable biomedical abstract generation in low-resource settings. Our data and code are available at https://huggingface.co/datasets/pmc-mad/PMC-MAD and https://github.com/ScienceNLP-Lab/MultiTagger-v2/tree/main/DPR-BAG.
- Abstract(参考訳): バイオメディカル抽象化は、情報検索、バイオキュレーション、バイオメディカル知識発見など、下流のNLPアプリケーションにおいて重要な役割を果たす。
しかし、非自明な数のバイオメディカル記事は抽象概念を持たず、下流業務におけるこれらの記事の有用性を低下させる。
本稿では,DPR-BAG (Divide, Prompt, Refine for Biomedical Abstract Generation) を提案する。
DPR-BAGは、全文文書をBOMRCスキーマに従って構造化された修辞系ファセットに分解し、各ファセットに対して並列LLMベースの要約を行い、グローバルな談話コヒーレンスを復元するために最終改良段階を適用する。
PMC-MADでは、46,309のバイオメディカルな記事の分布に整合したデータセットとして、DPR-BAGは、厳密な抽出と微調整によるベースラインよりも抽象的ノベルティを向上し、事実整合性を維持している。
迅速な複雑性の増大や、エンティティレベルのガイダンスを明示的に注入することは、現実的なアライメントを低下させ、コントロールされたプロンプト戦略の重要性を浮き彫りにする。
これらの知見は、低リソース環境下でのスケーラブルなバイオメディカル抽象生成のための、トレーニングフリーで構造対応のフレームワークの可能性を示している。
私たちのデータとコードはhttps://huggingface.co/datasets/pmc-mad/PMC-MADとhttps://github.com/ScienceNLP-Lab/MultiTagger-v2/tree/DPR-BAGで利用可能です。
関連論文リスト
- MedConclusion: A Benchmark for Biomedical Conclusion Generation from Structured Abstracts [6.305549902494417]
MedConclusionは、バイオメディカルな結論生成のための構造化抽象化の大規模データセットである。
各インスタンスは、抽象的でない部分とオリジナルの著者による結論とをペアリングする。
MedConclusionには、バイオメディカルカテゴリやSJRといったジャーナルレベルのメタデータも含まれている。
論文 参考訳(メタデータ) (2026-04-07T22:34:02Z) - Learning Interpretable Representations Leads to Semantically Faithful EEG-to-Text Generation [52.51005875755718]
我々は脳波からテキストへの復号に焦点をあて、後部崩壊のレンズを通して幻覚の問題に対処する。
脳波とテキスト間の情報容量のミスマッチを認め、デコードタスクをコア意味のセマンティックな要約として再設計する。
パブリックなZuCoデータセットの実験では、GLIMが一貫して、流動的なEEG基底文を生成することが示されている。
論文 参考訳(メタデータ) (2025-05-21T05:29:55Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - High-throughput Biomedical Relation Extraction for Semi-Structured Web Articles Empowered by Large Language Models [1.9665865095034865]
関係抽出タスクを大言語モデルのバイナリ分類として定式化する。
メインタイトルをテールエンティティとして指定し、コンテキストに明示的に組み込む。
長い内容はテキストチャンクにスライスされ、埋め込みされ、追加の埋め込みモデルで検索される。
論文 参考訳(メタデータ) (2023-12-13T16:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。