論文の概要: Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content
- arxiv url: http://arxiv.org/abs/2506.20331v1
- Date: Wed, 25 Jun 2025 11:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.713692
- Title: Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content
- Title(参考訳): バイオメディカル・エンリッチド:レアおよび隠れた内容の保存・抽出のためのLDMを内蔵したバイオメディカルデータセット
- Authors: Rian Touchent, Nathan Godey, Eric de la Clergerie,
- Abstract要約: 2段階のアノテーションプロセスを通じてPubMedから構築されたバイオメディカルテキストデータセットであるBiomed-Enrichedを紹介する。
第一段階では、大きな言語モデルがPubMedの科学論文から400K節を注釈付けし、それらのタイプ(レビュー、研究、臨床ケースなど)、ドメイン(クリニカル、バイオメディカルなど)、教育的品質にスコアを割り当てている。
得られたメタデータは, 市販ライセンスのある記事から, 450万以上の高品質なものを含む200万件の症例を含む, 精巧なサブセットを抽出することができる。
- 参考スコア(独自算出の注目度): 0.10241134756773229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Biomed-Enriched, a biomedical text dataset constructed from PubMed via a two-stage annotation process. In the first stage, a large language model annotates 400K paragraphs from PubMed scientific articles, assigning scores for their type (review, study, clinical case, other), domain (clinical, biomedical, other), and educational quality. The educational quality score (rated 1 to 5) estimates how useful a paragraph is for college-level learning. These annotations are then used to fine-tune a small language model, which propagates the labels across the full PMC-OA corpus. The resulting metadata allows us to extract refined subsets, including 2M clinical case paragraphs with over 450K high-quality ones from articles with commercial-use licenses, and to construct several variants via quality filtering and domain upsampling. Clinical text is typically difficult to access due to privacy constraints, as hospital records cannot be publicly shared. Hence, our dataset provides an alternative large-scale, openly available collection of clinical cases from PubMed, making it a valuable resource for biomedical and clinical NLP. Preliminary continual-pretraining experiments with OLMo2 suggest these curated subsets enable targeted improvements, with clinical upsampling boosting performance by ~5% on MMLU ProfMed and educational quality filtering improving MedQA and MedMCQA by ~1%. Combinations of these techniques led to faster convergence, reaching same performance with a third of training tokens, indicating potential for more efficient and effective biomedical pretraining strategies.
- Abstract(参考訳): 2段階のアノテーションプロセスを通じてPubMedから構築されたバイオメディカルテキストデータセットであるBiomed-Enrichedを紹介する。
第一段階では、大きな言語モデルがPubMedの科学論文から400K節を注釈付けし、それらのタイプ(レビュー、研究、臨床ケースなど)、ドメイン(クリニカル、バイオメディカルなど)、教育的品質にスコアを割り当てている。
教育的品質スコア(1~5)は、大学レベルの学習に役立つ段落を推定する。
これらのアノテーションは、PMC-OAコーパス全体にわたってラベルを伝播する小さな言語モデルを微調整するために使用される。
得られたメタデータは, 商業用ライセンスを有する記事から, 450K以上の高品質な2百万件以上の臨床症例を含む精巧なサブセットを抽出し, 品質フィルタリングとドメインアップサンプリングにより, いくつかの変種を構築することができる。
病院の記録は公開されていないため、プライバシの制約により、臨床テキストへのアクセスが難しいのが一般的である。
そこで,本データセットはPubMedの大規模かつ公開的な臨床症例のコレクションとして,バイオメディカルおよび臨床NLPに有用な資料である。
MedQAおよびMedMCQAを約1%改善したMMLU ProfMedおよび教育品質フィルタリングにおいて、これらの培養されたサブセットは標的改善を可能にすることを示唆している。
これらのテクニックを組み合わせることで、より早く収束し、トレーニングトークンの3分の1と同等のパフォーマンスを達成し、より効率的で効果的なバイオメディカル事前訓練戦略の可能性を示唆した。
関連論文リスト
- TheBlueScrubs-v1, a comprehensive curated medical dataset derived from the internet [1.4043931310479378]
BlueScrubs-v1は、広範囲のインターネットコーパスから得られた2500億以上の医療トークンの収集されたデータセットである。
各テキストには、医療関連性、精度、事実の詳細、安全性と倫理基準を含む3つのLCMベースの品質スコアが割り当てられている。
このData Descriptorは、データセットの作成と検証について詳述し、医療AI研究の潜在的有用性について説明している。
論文 参考訳(メタデータ) (2025-04-01T22:25:19Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Improving Extraction of Clinical Event Contextual Properties from Electronic Health Records: A Comparative Study [2.0884301753594334]
本研究は,医学テキスト分類のための様々な自然言語モデルの比較分析を行う。
BERTはBi-LSTMモデルを最大28%、ベースラインのBERTモデルを最大16%上回り、マイノリティクラスをリコールする。
論文 参考訳(メタデータ) (2024-08-30T10:28:49Z) - WisPerMed at "Discharge Me!": Advancing Text Generation in Healthcare with Large Language Models, Dynamic Expert Selection, and Priming Techniques on MIMIC-IV [0.38084074204911494]
本研究は, アウトレット・サマリーの「Brief Hospital Course」と「Discharge Instructions」を自動生成するために, 最先端の言語モデルを活用することを目的としている。
医療施設において, 自動化がドキュメンテーションの精度を向上し, クリニックのバーンアウトを緩和し, 運用効率を向上させる方法について検討した。
論文 参考訳(メタデータ) (2024-05-18T10:56:45Z) - Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
我々のプロセスには、AIと人間のフィードバックの両方から、継続的な事前トレーニング、教師付き微調整、強化学習が組み込まれています。
得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - CamemBERT-bio: Leveraging Continual Pre-training for Cost-Effective Models on French Biomedical Data [1.1265248232450553]
BERTライクなモデルによるトランスファーラーニングは、特に名前付きエンティティ認識において、フランス語に大きな進歩をもたらした。
我々は,フランスの生物医学モデルであるCamemBERT-bioを紹介した。
連続的な事前トレーニングを通じて、CamemBERT-bioは、様々な生物医学的名前付きエンティティ認識タスクで平均2.54ポイントのF1スコアを達成している。
論文 参考訳(メタデータ) (2023-06-27T15:23:14Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。