論文の概要: AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain
- arxiv url: http://arxiv.org/abs/2110.13434v1
- Date: Tue, 26 Oct 2021 06:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:04:25.857515
- Title: AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain
- Title(参考訳): AVocaDo: 下流ドメインへの語彙適応戦略
- Authors: Jimin Hong, Taehee Kim, Hyesu Lim and Jaegul Choo
- Abstract要約: 本稿では,語彙を最適化可能なパラメータとして考慮し,ドメイン固有の語彙で拡張することで語彙を更新することを提案する。
我々は、事前学習された言語モデルから学習した知識を正規化項で活用することにより、付加された単語の埋め込みを、過剰適合から下流データへ保存する。
- 参考スコア(独自算出の注目度): 17.115865763783336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During the fine-tuning phase of transfer learning, the pretrained vocabulary
remains unchanged, while model parameters are updated. The vocabulary generated
based on the pretrained data is suboptimal for downstream data when domain
discrepancy exists. We propose to consider the vocabulary as an optimizable
parameter, allowing us to update the vocabulary by expanding it with
domain-specific vocabulary based on a tokenization statistic. Furthermore, we
preserve the embeddings of the added words from overfitting to downstream data
by utilizing knowledge learned from a pretrained language model with a
regularization term. Our method achieved consistent performance improvements on
diverse domains (i.e., biomedical, computer science, news, and reviews).
- Abstract(参考訳): 転写学習の微調整段階では、事前訓練された語彙は変化せず、モデルパラメータは更新される。
事前訓練されたデータに基づいて生成された語彙は、ドメインの相違が存在する場合、下流データに最適である。
我々は,この語彙を最適化可能なパラメータとして考慮し,トークン化統計に基づいたドメイン固有語彙に拡張することで,語彙の更新を可能にすることを提案する。
さらに,正規化項を持つ事前学習された言語モデルから学習した知識を活用して,追加単語の埋め込みを下流データへの過剰適合から保存する。
本手法は多様な領域(生物医学,コンピュータ科学,ニュース,レビュー)において一貫した性能改善を達成した。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps [12.573927420408365]
事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチよりも大幅に優れていた。
本稿では,語彙と単語周波数のギャップを埋めることによる教師なし領域適応手法を提案する。
提案手法は,現在最先端の領域適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T03:58:26Z) - Suffix Retrieval-Augmented Language Modeling [1.8710230264817358]
因果語モデリング(LM)は単語履歴を用いて次の単語を予測する。
一方,BERTは文中の双方向の単語情報を用いて,マスキング位置での単語の予測を行う。
本稿では,双方向の文脈効果を自己回帰的にシミュレートする新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:53:19Z) - TransDrift: Modeling Word-Embedding Drift using Transformer [8.707217592903735]
単語埋め込みのための変換器に基づく予測モデルであるTransDriftを提案する。
我々のモデルは埋め込みドリフトの力学を正確に学習し、将来の埋め込みを予測する。
私たちの埋め込みは、以前の方法よりも優れたパフォーマンスをもたらします。
論文 参考訳(メタデータ) (2022-06-16T10:48:26Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。