論文の概要: Improving Pre-trained Language Model Sensitivity via Mask Specific losses: A case study on Biomedical NER
- arxiv url: http://arxiv.org/abs/2403.18025v2
- Date: Thu, 28 Mar 2024 11:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 10:49:40.380026
- Title: Improving Pre-trained Language Model Sensitivity via Mask Specific losses: A case study on Biomedical NER
- Title(参考訳): マスク特異的損失による事前学習型言語モデル感度の向上:バイオメディカルNERを事例として
- Authors: Micheal Abaho, Danushka Bollegala, Gary Leeming, Dan Joyce, Iain E Buchan,
- Abstract要約: マスク特化言語モデリング(英語: Mask Specific Language Modeling、MSLM)は、ターゲットドメインの知識を効率的に取得する手法である。
MSLMはDS-termsとジェネリックワードを共同でマスクし、マスク固有の損失を学習する。
分析の結果,MSLMはDS項の感度と検出を改善した。
- 参考スコア(独自算出の注目度): 21.560012335091287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adapting language models (LMs) to novel domains is often achieved through fine-tuning a pre-trained LM (PLM) on domain-specific data. Fine-tuning introduces new knowledge into an LM, enabling it to comprehend and efficiently perform a target domain task. Fine-tuning can however be inadvertently insensitive if it ignores the wide array of disparities (e.g in word meaning) between source and target domains. For instance, words such as chronic and pressure may be treated lightly in social conversations, however, clinically, these words are usually an expression of concern. To address insensitive fine-tuning, we propose Mask Specific Language Modeling (MSLM), an approach that efficiently acquires target domain knowledge by appropriately weighting the importance of domain-specific terms (DS-terms) during fine-tuning. MSLM jointly masks DS-terms and generic words, then learns mask-specific losses by ensuring LMs incur larger penalties for inaccurately predicting DS-terms compared to generic words. Results of our analysis show that MSLM improves LMs sensitivity and detection of DS-terms. We empirically show that an optimal masking rate not only depends on the LM, but also on the dataset and the length of sequences. Our proposed masking strategy outperforms advanced masking strategies such as span- and PMI-based masking.
- Abstract(参考訳): 言語モデル(LM)を新しいドメインに適応させることは、ドメイン固有のデータに基づいて事前訓練されたLM(PLM)を微調整することでしばしば達成される。
ファインチューニングは、LMに新しい知識を導入し、ターゲットドメインタスクを理解し、効率的に実行できるようにする。
しかし、微調整は、ソースドメインとターゲットドメインの間の幅広い相違(例えば、単語の意味)を無視している場合、不注意に非感受性となる。
例えば、慢性的な言葉やプレッシャーのような単語は、社会的会話において軽快に扱われることがあるが、臨床的には、これらの単語は通常、関心の表現である。
微調整におけるドメイン固有語の重要性を適切に重み付けすることで,対象ドメインの知識を効率的に獲得する手法であるマスク特化言語モデリング(MSLM)を提案する。
MSLMはDS-termsとジェネリックワードを併用してマスク固有の損失を学習し、ジェネリックワードと比較して不正確なDS-termsを予測するために、LMがより大きな罰則を課すことを保証する。
分析の結果,MSLMはDS項の感度と検出を改善した。
実験により,最適なマスキング速度はLMだけでなく,データセットやシーケンスの長さにも依存することが示された。
提案するマスキング戦略は,スパンマスクやPMIマスクなどの高度なマスキング戦略よりも優れている。
関連論文リスト
- Refining Translations with LLMs: A Constraint-Aware Iterative Prompting Approach [7.5069214839655345]
大言語モデル(LLM)は機械翻訳(MT)において顕著な熟練性を示している
本稿では,意味的正確性に不可欠なキーワードを優先することで,翻訳忠実度を高める多段階のプロンプトチェーンを提案する。
FLORES-200およびWMTデータセットのベースモデルとしてLlamaとQwenを使用した実験は、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-11-13T05:40:24Z) - SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack [29.744970741737376]
我々はセマンティック・コンスタント・アンリミスタント・アンリミテッド・アタック(SCA)と呼ばれる新しいフレームワークを提案する。
SCAは、編集しやすいノイズマップを抽出するために反転法を採用し、意味的なガイダンスを提供するためにMLLM(Multimodal Large Language Model)を使用している。
我々のフレームワークは、最小限の識別可能な意味変化を示す敵例の効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-10-03T06:25:53Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance [51.36243421001282]
Gradient-Mask Tuning (GMT) は、勾配情報に基づいてトレーニング中のパラメータを選択的に更新する手法である。
実験により, GMTは従来の微調整法に勝るだけでなく, LLM性能の上限も高めることを示した。
論文 参考訳(メタデータ) (2024-06-21T17:42:52Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Fine-tuning Large Language Models for Domain-specific Machine
Translation [8.439661191792897]
大規模言語モデル(LLM)は機械翻訳(MT)において大きな進歩を遂げた。
しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。
本稿では,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:24:15Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Generalizing through Forgetting -- Domain Generalization for Symptom
Event Extraction in Clinical Notes [0.0]
プレトレーニングデータと微調整データを用いた症状抽出のための領域一般化を提案する。
ソース領域における頻繁な症状語を動的にマスキングする領域一般化手法を提案する。
実験の結果,対象領域からの距離が遠い場合,マスキングおよび適応型事前学習法により性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2022-09-20T05:53:22Z) - KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。
知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。
計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文 参考訳(メタデータ) (2022-04-22T08:11:59Z) - Context-Aware Mixup for Domain Adaptive Semantic Segmentation [52.1935168534351]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインのモデルをラベル付きターゲットドメインに適応させることを目的としている。
ドメイン適応型セマンティックセグメンテーションのためのエンド・ツー・エンドコンテキスト・アウェア・ミックスアップ(CAMix)を提案する。
実験結果から,提案手法は最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-08-08T03:00:22Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。