論文の概要: Vocabulary Transfer for Biomedical Texts: Add Tokens if You Can Not Add Data
- arxiv url: http://arxiv.org/abs/2208.02554v3
- Date: Sat, 16 Nov 2024 17:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:10.046305
- Title: Vocabulary Transfer for Biomedical Texts: Add Tokens if You Can Not Add Data
- Title(参考訳): バイオメディカルテキストのための語彙移動:データを追加できない場合のトークンの追加
- Authors: Priyanka Singh, Vladislav D. Mosin, Ivan P. Yamshchikov,
- Abstract要約: 我々は,対象語彙を拡張して,ドメイン固有のバイオメディカル用語を組み込む手法である語彙拡張に焦点を当てた。
以上の結果から,語彙拡張は,下流モデルの性能と推論時間の両方において,測定可能な改善をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 10.220652487259683
- License:
- Abstract: Working within specific NLP subdomains presents significant challenges, primarily due to a persistent deficit of data. Stringent privacy concerns and limited data accessibility often drive this shortage. Additionally, the medical domain demands high accuracy, where even marginal improvements in model performance can have profound impacts. In this study, we investigate the potential of vocabulary transfer to enhance model performance in biomedical NLP tasks. Specifically, we focus on vocabulary extension, a technique that involves expanding the target vocabulary to incorporate domain-specific biomedical terms. Our findings demonstrate that vocabulary extension, leads to measurable improvements in both downstream model performance and inference time.
- Abstract(参考訳): 特定のNLPサブドメイン内での作業は、主にデータの持続的欠如による、重大な課題を示す。
厳格なプライバシの懸念とデータアクセシビリティの制限が、この不足を招きかねない。
さらに、医療領域は高い精度を必要とし、モデルパフォーマンスの限界的な改善でさえ大きな影響を与える可能性がある。
本研究では,バイオメディカルNLPタスクのモデル性能を高めるために語彙移動の可能性を検討する。
具体的には,対象語彙を拡張して,ドメイン固有のバイオメディカル用語を組み込む手法である語彙拡張に焦点を当てる。
以上の結果から,語彙拡張は,下流モデルの性能と推論時間の両方において,測定可能な改善をもたらすことが示唆された。
関連論文リスト
- Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models [54.385486006684495]
LaPaelは、初期大規模言語モデル層に入力依存ノイズを適用する潜在レベルパラフレーズ法である。
質問応答ベンチマーク実験により、LaPaelは、標準的な微調整および既存のノイズベースアプローチよりも知識注入を改善することを示した。
論文 参考訳(メタデータ) (2024-11-01T15:47:05Z) - Gold Panning in Vocabulary: An Adaptive Method for Vocabulary Expansion of Domain-Specific LLMs [41.33057465386127]
本稿では,あるドメイン語彙から価値ある単語を自動的に識別する適応的手法であるVEGADを紹介する。
拡張のための最適なサブセットの選択は、ドメイン固有のタスクと一般的なタスクの両方のパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2024-10-02T02:47:39Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Leveraging knowledge graphs to update scientific word embeddings using
latent semantic imputation [0.0]
glslsiは、最新の知識グラフからドメイン固有の単語を埋め込むことができることを示す。
生物医学領域における希少項およびOOV項に対して,LSIは信頼性の高い埋め込みベクトルを生成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-27T12:15:26Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - Integration of Domain Knowledge using Medical Knowledge Graph Deep
Learning for Cancer Phenotyping [6.077023952306772]
本稿では,医学用語からの外部知識を単語埋め込みによって捉えた文脈に統合する手法を提案する。
提案手法は,Multitask Convolutional Neural Network (MT-CNN) を用いて,900Kの癌病理所見のデータセットから6つのがん特性を抽出する。
論文 参考訳(メタデータ) (2021-01-05T03:59:43Z) - MeDAL: Medical Abbreviation Disambiguation Dataset for Natural Language
Understanding Pretraining [5.807159674193696]
略語用大容量医療用テキストデータセットであるMeDALについて述べる。
このデータセット上で共通アーキテクチャのモデルをいくつか事前トレーニングし,その事前トレーニングが下流医療タスクの微調整時のパフォーマンス向上と収束速度の向上につながることを実証的に示した。
論文 参考訳(メタデータ) (2020-12-27T17:17:39Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。