Fugu-MT 論文翻訳(概要): Vocabulary Transfer for Medical Texts

論文の概要: Vocabulary Transfer for Medical Texts

arxiv url: http://arxiv.org/abs/2208.02554v1
Date: Thu, 4 Aug 2022 09:53:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-05 12:27:10.298872
Title: Vocabulary Transfer for Medical Texts
Title（参考訳）: 医療用テキストの語彙移動
Authors: Vladislav D. Mosin, Ivan P. Yamshchikov
Abstract要約: 語彙変換(vocabulary transfer)は、言語モデルがデフォルトではなく、コーパス固有のトークン化を微調整するサブタスクである。医療用テキスト処理において,語彙伝達が特に有用であることを示す。
参考スコア（独自算出の注目度）: 7.195824023358536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vocabulary transfer is a transfer learning subtask in which language models fine-tune with the corpus-specific tokenization instead of the default one, which is being used during pretraining. This usually improves the resulting performance of the model, and in the paper, we demonstrate that vocabulary transfer is especially beneficial for medical text processing. Using three different medical natural language processing datasets, we show vocabulary transfer to provide up to ten extra percentage points for the downstream classifier accuracy.
Abstract（参考訳）: Vocabulary Transfer(語彙変換)は、言語モデルがデフォルトではなく、コーパス固有のトークン化を微調整するトランスファー学習サブタスクである。これは通常、モデルの性能を改善し、本論文では、語彙変換が特に医療用テキスト処理に有用であることを示す。 3つの異なる医学自然言語処理データセットを用いて、下流分類器の精度を最大10ポイントまで向上させる語彙変換を示す。

関連論文リスト

Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文参考訳（メタデータ） (2025-03-03T06:46:26Z)
Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models [54.385486006684495]
LaPaelは、初期大規模言語モデル層に入力依存ノイズを適用する潜在レベルパラフレーズ法である。質問応答ベンチマーク実験により、LaPaelは、標準的な微調整および既存のノイズベースアプローチよりも知識注入を改善することを示した。
論文参考訳（メタデータ） (2024-11-01T15:47:05Z)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。 MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳（メタデータ） (2024-04-10T07:41:35Z)
An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文参考訳（メタデータ） (2024-03-30T15:29:49Z)
Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文参考訳（メタデータ） (2023-12-09T14:13:45Z)
Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。我々は,単語順序の重要性を維持するために強制的無効化を提案する。実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-04-11T13:42:10Z)
Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。提案手法により,下流タスクの性能が大幅に向上した。
論文参考訳（メタデータ） (2023-03-08T03:56:31Z)
Leveraging knowledge graphs to update scientific word embeddings using latent semantic imputation [0.0]
glslsiは、最新の知識グラフからドメイン固有の単語を埋め込むことができることを示す。生物医学領域における希少項およびOOV項に対して,LSIは信頼性の高い埋め込みベクトルを生成可能であることを示す。
論文参考訳（メタデータ） (2022-10-27T12:15:26Z)
Fine-Tuning Large Neural Language Models for Biomedical Natural Language Processing [55.52858954615655]
バイオメディカルNLPの微調整安定性に関する系統的研究を行った。我々は、特に低リソース領域において、微調整性能は事前トレーニング設定に敏感であることを示した。これらの技術は低リソースバイオメディカルNLPアプリケーションの微調整性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2021-12-15T04:20:35Z)
AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain [17.115865763783336]
本稿では,語彙を最適化可能なパラメータとして考慮し,ドメイン固有の語彙で拡張することで語彙を更新することを提案する。我々は、事前学習された言語モデルから学習した知識を正規化項で活用することにより、付加された単語の埋め込みを、過剰適合から下流データへ保存する。
論文参考訳（メタデータ） (2021-10-26T06:26:01Z)
Recognising Biomedical Names: Challenges and Solutions [9.51284672475743]
本稿では,不連続な言及を認識可能な遷移ベースNERモデルを提案する。また、適切な事前学習データを通知する費用対効果のアプローチも開発している。我々の貢献は、特に新しいバイオメディカル・アプリケーションが必要な場合に、明らかな実践的意味を持つ。
論文参考訳（メタデータ） (2021-06-23T08:20:13Z)
Integration of Domain Knowledge using Medical Knowledge Graph Deep Learning for Cancer Phenotyping [6.077023952306772]
本稿では,医学用語からの外部知識を単語埋め込みによって捉えた文脈に統合する手法を提案する。提案手法は,Multitask Convolutional Neural Network (MT-CNN) を用いて,900Kの癌病理所見のデータセットから6つのがん特性を抽出する。
論文参考訳（メタデータ） (2021-01-05T03:59:43Z)
Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文参考訳（メタデータ） (2020-07-31T00:04:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。