論文の概要: MEDVOC: Vocabulary Adaptation for Fine-tuning Pre-trained Language Models on Medical Text Summarization
- arxiv url: http://arxiv.org/abs/2405.04163v2
- Date: Sat, 17 Aug 2024 12:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:48:22.495791
- Title: MEDVOC: Vocabulary Adaptation for Fine-tuning Pre-trained Language Models on Medical Text Summarization
- Title(参考訳): MEDVOC:医学テキスト要約に基づく微調整事前学習言語モデルの語彙適応
- Authors: Gunjan Balde, Soumyadeep Roy, Mainack Mondal, Niloy Ganguly,
- Abstract要約: 本研究は,学習前言語モデル(PLM)を微調整するための動的語彙適応戦略であるMEDVOCを提案する。
要約における既存の領域適応アプローチとは対照的に、MEDVOCは語彙を最適化可能なパラメータとして扱う。
MEDVOCはより忠実な医療サマリーを生成する。
- 参考スコア(独自算出の注目度): 26.442558912559658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a dynamic vocabulary adaptation strategy, MEDVOC, for fine-tuning pre-trained language models (PLMs) like BertSumAbs, BART, and PEGASUS for improved medical text summarization. In contrast to existing domain adaptation approaches in summarization, MEDVOC treats vocabulary as an optimizable parameter and optimizes the PLM vocabulary based on fragment score conditioned only on the downstream task's reference summaries. Unlike previous works on vocabulary adaptation (limited only to classification tasks), optimizing vocabulary based on summarization tasks requires an extremely costly intermediate fine-tuning step on large summarization datasets. To that end, our novel fragment score-based hyperparameter search very significantly reduces this fine-tuning time -- from 450 days to less than 2 days on average. Furthermore, while previous works on vocabulary adaptation are often primarily tied to single PLMs, MEDVOC is designed to be deployable across multiple PLMs (with varying model vocabulary sizes, pre-training objectives, and model sizes) -- bridging the limited vocabulary overlap between the biomedical literature domain and PLMs. MEDVOC outperforms baselines by 15.74% in terms of Rouge-L in zero-shot setting and shows gains of 17.29% in high Out-Of-Vocabulary (OOV) concentrations. Our human evaluation shows MEDVOC generates more faithful medical summaries (88% compared to 59% in baselines). We make the codebase publicly available at https://github.com/gb-kgp/MEDVOC.
- Abstract(参考訳): 本研究は,BertSumAbs,BART,PEGASUSなどの微調整済み言語モデル(PLM)のための動的語彙適応戦略であるMEDVOCを提案する。
要約における既存のドメイン適応アプローチとは対照的に、MEDVOCは語彙を最適化可能なパラメータとして扱い、下流タスクの参照要約にのみ条件付きフラグメントスコアに基づいてPLM語彙を最適化する。
語彙適応に関する従来の研究(分類タスクのみに限る)とは異なり、要約タスクに基づく語彙の最適化には、大規模な要約データセットにおいて非常にコストのかかる中間調整ステップが必要である。
そのために、新しい断片スコアに基づくハイパーパラメーターサーチは、この微調整時間を平均450日から2日未満に大幅に短縮する。
さらに、語彙適応に関する以前の研究は、主に単一のPLMに結びついているが、MEDVOCは複数のPLMにまたがるデプロイが可能なように設計されている(様々なモデル語彙サイズ、事前学習目的、モデルサイズ)。
MEDVOCはゼロショット設定でルージュ-Lのベースラインを15.74%上回り、高いOf-ボキャブラリ(OOV)濃度で17.29%の上昇を示した。
MEDVOCはより忠実な医療サマリー(ベースラインの59%に比べて88%)を産み出す。
コードベースはhttps://github.com/gb-kgp/MEDVOC.comで公開しています。
関連論文リスト
- Adaptive BPE Tokenization for Enhanced Vocabulary Adaptation in Finetuning Pretrained Language Models [26.442558912559658]
Byte-Pair を用いた語彙適応手法の基本的な限界を示す。
(BPE)エキスパートドメインへの微調整事前学習言語モデル(PLM)のトークン化方式。
本稿では,BPEのトークン化フェーズが変更され,文字レベルでのトークン化の前に,付加(ターゲット)語彙上で最も長い文字列マッチングが実行されるAdaptBPEを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:24:55Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps [12.573927420408365]
事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチよりも大幅に優れていた。
本稿では,語彙と単語周波数のギャップを埋めることによる教師なし領域適応手法を提案する。
提案手法は,現在最先端の領域適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T03:58:26Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain [17.115865763783336]
本稿では,語彙を最適化可能なパラメータとして考慮し,ドメイン固有の語彙で拡張することで語彙を更新することを提案する。
我々は、事前学習された言語モデルから学習した知識を正規化項で活用することにより、付加された単語の埋め込みを、過剰適合から下流データへ保存する。
論文 参考訳(メタデータ) (2021-10-26T06:26:01Z) - Span Fine-tuning for Pre-trained Language Models [43.352833140317486]
本稿では,PrLMのためのスパンファインチューニング手法を提案する。
PrLMによって処理されたすべての文は、プリサンプル辞書に従って複数のスパンに分割される。
GLUEベンチマーク実験の結果,提案手法はPrLMを大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-08-29T14:11:38Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。