論文の概要: Vocabulary Transfer for Medical Texts
- arxiv url: http://arxiv.org/abs/2208.02554v1
- Date: Thu, 4 Aug 2022 09:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:27:10.298872
- Title: Vocabulary Transfer for Medical Texts
- Title(参考訳): 医療用テキストの語彙移動
- Authors: Vladislav D. Mosin, Ivan P. Yamshchikov
- Abstract要約: 語彙変換(vocabulary transfer)は、言語モデルがデフォルトではなく、コーパス固有のトークン化を微調整するサブタスクである。
医療用テキスト処理において,語彙伝達が特に有用であることを示す。
- 参考スコア(独自算出の注目度): 7.195824023358536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vocabulary transfer is a transfer learning subtask in which language models
fine-tune with the corpus-specific tokenization instead of the default one,
which is being used during pretraining. This usually improves the resulting
performance of the model, and in the paper, we demonstrate that vocabulary
transfer is especially beneficial for medical text processing. Using three
different medical natural language processing datasets, we show vocabulary
transfer to provide up to ten extra percentage points for the downstream
classifier accuracy.
- Abstract(参考訳): Vocabulary Transfer(語彙変換)は、言語モデルがデフォルトではなく、コーパス固有のトークン化を微調整するトランスファー学習サブタスクである。
これは通常、モデルの性能を改善し、本論文では、語彙変換が特に医療用テキスト処理に有用であることを示す。
3つの異なる医学自然言語処理データセットを用いて、下流分類器の精度を最大10ポイントまで向上させる語彙変換を示す。
関連論文リスト
- Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models [54.385486006684495]
LaPaelは、初期大規模言語モデル層に入力依存ノイズを適用する潜在レベルパラフレーズ法である。
質問応答ベンチマーク実験により、LaPaelは、標準的な微調整および既存のノイズベースアプローチよりも知識注入を改善することを示した。
論文 参考訳(メタデータ) (2024-11-01T15:47:05Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Leveraging knowledge graphs to update scientific word embeddings using
latent semantic imputation [0.0]
glslsiは、最新の知識グラフからドメイン固有の単語を埋め込むことができることを示す。
生物医学領域における希少項およびOOV項に対して,LSIは信頼性の高い埋め込みベクトルを生成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-27T12:15:26Z) - Fine-Tuning Large Neural Language Models for Biomedical Natural Language
Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。
我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。
これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:20:35Z) - AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain [17.115865763783336]
本稿では,語彙を最適化可能なパラメータとして考慮し,ドメイン固有の語彙で拡張することで語彙を更新することを提案する。
我々は、事前学習された言語モデルから学習した知識を正規化項で活用することにより、付加された単語の埋め込みを、過剰適合から下流データへ保存する。
論文 参考訳(メタデータ) (2021-10-26T06:26:01Z) - Recognising Biomedical Names: Challenges and Solutions [9.51284672475743]
本稿では,不連続な言及を認識可能な遷移ベースNERモデルを提案する。
また、適切な事前学習データを通知する費用対効果のアプローチも開発している。
我々の貢献は、特に新しいバイオメディカル・アプリケーションが必要な場合に、明らかな実践的意味を持つ。
論文 参考訳(メタデータ) (2021-06-23T08:20:13Z) - Integration of Domain Knowledge using Medical Knowledge Graph Deep
Learning for Cancer Phenotyping [6.077023952306772]
本稿では,医学用語からの外部知識を単語埋め込みによって捉えた文脈に統合する手法を提案する。
提案手法は,Multitask Convolutional Neural Network (MT-CNN) を用いて,900Kの癌病理所見のデータセットから6つのがん特性を抽出する。
論文 参考訳(メタデータ) (2021-01-05T03:59:43Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。