論文の概要: From Memorization to Generalization: Fine-Tuning Large Language Models for Biomedical Term-to-Identifier Normalization
- arxiv url: http://arxiv.org/abs/2510.19036v1
- Date: Tue, 21 Oct 2025 19:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.618963
- Title: From Memorization to Generalization: Fine-Tuning Large Language Models for Biomedical Term-to-Identifier Normalization
- Title(参考訳): 記憶から一般化へ:生物医学用語から識別子の正規化のための微調整大言語モデル
- Authors: Suswitha Pericharla, Daniel B. Hier, Tayo Obafemi-Ajayi,
- Abstract要約: 大きな言語モデルは、約束を示すが、用語間で不均一に実行する。
一般化はタンパク質遺伝子マッピング(GENE)にのみ行われた。
ファインチューニングは、スパース識別子や非語彙化識別子によって失敗するのに対して、ファクトリコールを強化する。
- 参考スコア(独自算出の注目度): 0.45880283710344066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective biomedical data integration depends on automated term normalization, the mapping of natural language biomedical terms to standardized identifiers. This linking of terms to identifiers is essential for semantic interoperability. Large language models (LLMs) show promise for this task but perform unevenly across terminologies. We evaluated both memorization (training-term performance) and generalization (validation-term performance) across multiple biomedical ontologies. Fine-tuning Llama 3.1 8B revealed marked differences by terminology. GO mappings showed strong memorization gains (up to 77% improvement in term-to-identifier accuracy), whereas HPO showed minimal improvement. Generalization occurred only for protein-gene (GENE) mappings (13.9% gain), while fine-tuning for HPO and GO yielded negligible transfer. Baseline accuracy varied by model scale, with GPT-4o outperforming both Llama variants for all terminologies. Embedding analyses showed tight semantic alignment between gene symbols and protein names but weak alignment between terms and identifiers for GO or HPO, consistent with limited lexicalization. Fine-tuning success depended on two interacting factors: identifier popularity and lexicalization. Popular identifiers were more likely encountered during pretraining, enhancing memorization. Lexicalized identifiers, such as gene symbols, enabled semantic generalization. By contrast, arbitrary identifiers in GO and HPO constrained models to rote learning. These findings provide a predictive framework for when fine-tuning enhances factual recall versus when it fails due to sparse or non-lexicalized identifiers.
- Abstract(参考訳): 効果的なバイオメディカルデータ統合は、自動化された用語正規化、自然言語のバイオメディカル用語から標準化された識別子へのマッピングに依存する。
この用語と識別子のリンクはセマンティック・インターオペラビリティに不可欠である。
大規模言語モデル(LLM)は、このタスクを約束するが、用語間で不均一に実行する。
複数の生物医学的オントロジーにまたがって,記憶(訓練期成績)と一般化(評価期成績)の両方を評価した。
微調整のLlama 3.1 8Bは用語によって顕著な差異を示した。
GOマッピングでは強い記憶率(項識別精度が最大77%向上)を示したが,HPOでは最小改善率を示した。
一般化はタンパク質遺伝子マッピング(13.9%のゲイン)でのみ発生し、HPOとGOの微調整は無視できる移行をもたらした。
ベースライン精度はモデルスケールによって異なり、全ての用語においてGPT-4oはLlamaの変種よりも優れていた。
埋め込み解析では, 遺伝子記号とタンパク質名間の密接なセマンティックアライメントを示したが, GOやHPOの用語と識別子間の弱いアライメントは, 語彙化の限定と一致した。
微調整の成功は、識別人気と語彙化の2つの相互作用要因に依存した。
一般的な識別子は事前訓練中に出現し、記憶力を高めた。
遺伝子記号のような語彙化された識別子は意味的な一般化を可能にした。
対照的に、GOとHPOの任意の識別子は、学習をロートするためにモデルを制約した。
これらの知見は,ファインチューニングがファクトリコールを促進する場合と,スパース識別子や非レキシケート識別子によって失敗する場合の予測フレームワークを提供する。
関連論文リスト
- What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - DILA: Dictionary Label Attention for Mechanistic Interpretability in High-dimensional Multi-label Medical Coding Prediction [27.778160315671776]
医用符号化などの高次元・極端なマルチラベルの予測には、精度と解釈性の両方が必要である。
本稿では,非解釈不能な密埋め込みをスパース埋め込み空間に切り離す機械的解釈可能性モジュールを提案する。
当社のスパース埋め込みは、その密度の高い埋め込みよりも、少なくとも50%は人間に理解できることが示されています。
論文 参考訳(メタデータ) (2024-09-16T17:45:40Z) - Mapping Biomedical Ontology Terms to IDs: Effect of Domain Prevalence on Prediction Accuracy [0.0]
オントロジーIDの頻度はHPOの単語をHPOのID、GOの単語をGOのID、タンパク質の名前をUniProtKBのアクセス番号に正確にマッピングすることを強く予測する。
文献におけるHUGO遺伝子シンボルの頻度が高いため、これらのシンボルはレキシカル化され、GPT-4はタンパク質名を高い精度でHUGO遺伝子シンボルにマッピングすることができる。
論文 参考訳(メタデータ) (2024-09-11T21:34:46Z) - Improving Self-training for Cross-lingual Named Entity Recognition with
Contrastive and Prototype Learning [80.08139343603956]
言語横断的な実体認識において、自己学習は言語的ギャップを埋めるために一般的に用いられる。
本研究では,表現学習と擬似ラベル改善を組み合わせることで,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-05-23T02:52:16Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - Token Classification for Disambiguating Medical Abbreviations [0.0]
省略は避けられないが、医療テキストの重要な部分である。
標準化されたマッピングシステムの欠如は、曖昧な省略を困難かつ時間を要するタスクにする。
論文 参考訳(メタデータ) (2022-10-05T18:06:49Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - BBAEG: Towards BERT-based Biomedical Adversarial Example Generation for
Text Classification [1.14219428942199]
バイオメディカルテキスト分類のためのブラックボックス攻撃アルゴリズムであるBBAEG(Biomedical BERT-based Adversarial Example Generation)を提案する。
我々は,BBAEGがより優れた言語流布,セマンティック・コヒーレンス(セマンティック・コヒーレンス)でより強力な攻撃を行うことを示す。
論文 参考訳(メタデータ) (2021-04-05T05:32:56Z) - Generalized Zero-Shot Learning via VAE-Conditioned Generative Flow [83.27681781274406]
一般化されたゼロショット学習は、意味的記述から視覚的表現へ知識を移すことによって、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
近年のGZSLはデータ不足問題として定式化されており、主にGANやVAEを採用して、目に見えないクラスの視覚的特徴を生成する。
GZSLのための条件付き生成フロー,すなわちVAE-Conditioned Generative Flow (VAE-cFlow)を提案する。
論文 参考訳(メタデータ) (2020-09-01T09:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。