論文の概要: HILGEN: Hierarchically-Informed Data Generation for Biomedical NER Using Knowledgebases and Large Language Models
- arxiv url: http://arxiv.org/abs/2503.04930v1
- Date: Thu, 06 Mar 2025 20:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:34.196946
- Title: HILGEN: Hierarchically-Informed Data Generation for Biomedical NER Using Knowledgebases and Large Language Models
- Title(参考訳): HILGEN:知識ベースと大規模言語モデルを用いたバイオメディカルNERの階層的インフォームドデータ生成
- Authors: Yao Ge, Yuting Guo, Sudeshna Das, Swati Rajwal, Selen Bozkurt, Abeed Sarker,
- Abstract要約: HILGENは、UMLS(Unified Medical Language System)のドメイン知識と、大規模言語モデル(LLM)によって生成された合成データを組み合わせた階層的インフォームドデータ生成手法である。
提案手法はUMLSの階層構造を利用して,LLMからコンテキスト情報を取り込みながら,関連する概念でトレーニングデータを拡張する。
提案手法は,手動で注釈付けしたデータを必要とすることなく,数ショット設定でNERの性能を向上させる。
- 参考スコア(独自算出の注目度): 4.716639322440156
- License:
- Abstract: We present HILGEN, a Hierarchically-Informed Data Generation approach that combines domain knowledge from the Unified Medical Language System (UMLS) with synthetic data generated by large language models (LLMs), specifically GPT-3.5. Our approach leverages UMLS's hierarchical structure to expand training data with related concepts, while incorporating contextual information from LLMs through targeted prompts aimed at automatically generating synthetic examples for sparsely occurring named entities. The performance of the HILGEN approach was evaluated across four biomedical NER datasets (MIMIC III, BC5CDR, NCBI-Disease, and Med-Mentions) using BERT-Large and DANN (Data Augmentation with Nearest Neighbor Classifier) models, applying various data generation strategies, including UMLS, GPT-3.5, and their best ensemble. For the BERT-Large model, incorporating UMLS led to an average F1 score improvement of 40.36%, while using GPT-3.5 resulted in a comparable average increase of 40.52%. The Best-Ensemble approach using BERT-Large achieved the highest improvement, with an average increase of 42.29%. DANN model's F1 score improved by 22.74% on average using the UMLS-only approach. The GPT-3.5-based method resulted in a 21.53% increase, and the Best-Ensemble DANN model showed a more notable improvement, with an average increase of 25.03%. Our proposed HILGEN approach improves NER performance in few-shot settings without requiring additional manually annotated data. Our experiments demonstrate that an effective strategy for optimizing biomedical NER is to combine biomedical knowledge curated in the past, such as the UMLS, and generative LLMs to create synthetic training instances. Our future research will focus on exploring additional innovative synthetic data generation strategies for further improving NER performance.
- Abstract(参考訳): 本稿では、UMLS(Unified Medical Language System)のドメイン知識と、大規模言語モデル(LLM)、特にGPT-3.5によって生成された合成データを組み合わせた階層型情報生成手法であるHILGENを提案する。
提案手法はUMLSの階層構造を利用して学習データを関連概念で拡張し,LLMからの文脈情報を目的のプロンプトに組み込むことにより,スパース的に発生する名前付きエンティティの合成例を自動的に生成する。
The performance of the HILGEN approach were evaluate across four biomedical NER datasets (MIMIC III, BC5CDR, NCBI-Disease, Med-Mentions) using BERT-Large and DANN model, using various data generation strategy, including UMLS, GPT-3.5 and their best mble。
BERT-LargeモデルではUMLSの導入によりF1スコアは40.36%向上し、GPT-3.5は40.52%向上した。
BERT-Largeを用いたBest-Ensembleのアプローチは、平均42.29%の増加で最高の改善を実現した。
DANNモデルのF1スコアはUMLSのみのアプローチで平均22.74%改善した。
GPT-3.5ベースの手法では21.53%が増加し、Best-Ensemble DANNモデルは平均25.03%が向上した。
提案手法は,手動で注釈付けしたデータを必要とすることなく,数ショット設定でNERの性能を向上させる。
バイオメディカルNERを最適化するための効果的な戦略は,UMLS やジェネレーション LLM など,過去にキュレートされたバイオメディカル知識を組み合わせて,合成トレーニングインスタンスを作成することである。
今後の研究は、NER性能をさらに向上するための革新的な合成データ生成戦略の探求に焦点をあてる。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning [31.95005389919542]
データスケールとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。
本稿では,教師付きファインチューニングパラダイムであるAggregation Fine-Tuning(AFT)を紹介する。
ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-01-21T04:11:59Z) - Improving Equity in Health Modeling with GPT4-Turbo Generated Synthetic Data: A Comparative Study [1.85743121594882]
デモグラフィック群は、しばしば医学データセットで異なるレートで表現される。
これらの違いは機械学習アルゴリズムに偏りを生じさせ、より表現しやすいグループのパフォーマンスが向上する。
1つの有望な解決策は、非表現的データセットの潜在的な悪影響を軽減するために合成データを生成することである。
論文 参考訳(メタデータ) (2024-12-20T20:49:17Z) - Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Enhancing SLM via ChatGPT and Dataset Augmentation [0.3844771221441211]
我々は,大言語モデル (LLMs) と小言語モデル (SLMs) のパフォーマンスギャップを埋めるために,知識蒸留技術と合成データセット拡張を用いている。
提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。
その結果, 合成合理化によって自然言語の理解能力が向上し, ANLIデータセット上での分類精度が1.3%, 2.3%向上することが判明した。
論文 参考訳(メタデータ) (2024-09-19T09:24:36Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Leveraging Large Language Models for Enhanced NLP Task Performance through Knowledge Distillation and Optimized Training Strategies [0.8704964543257245]
本研究は, BERTモデルの性能向上を図るため, GPT-4の能力を活用した3段階学習戦略について検討する。
LLM アノテーションと LLM アノテーションを混合したデータを用いて BERT を訓練し,従来の手法に対する LLM アノテーションの有効性を分析した。
以上の結果から,蒸留とオリジナルデータの戦略的混合がBERTのNER能力を著しく高めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-14T16:10:45Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。