論文の概要: Self-Vocabularizing Training for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2503.13837v1
- Date: Tue, 18 Mar 2025 02:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:50.973949
- Title: Self-Vocabularizing Training for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のための自己語彙学習
- Authors: Pin-Jie Lin, Ernie Chang,
- Abstract要約: トレーニングされた翻訳モデルは、元のBPE語彙とは別個のBPE語彙反復を用いて、バイトペア符号化サブセット(BPE)を使用するように誘導される。
我々は,より小さく,より最適な語彙を自己選択する反復的手法である自己語彙学習を提案し,最大1.49BLEUの改善をもたらす。
- 参考スコア(独自算出の注目度): 4.697431621726331
- License:
- Abstract: Past vocabulary learning techniques identify relevant vocabulary before training, relying on statistical and entropy-based assumptions that largely neglect the role of model training. Empirically, we observe that trained translation models are induced to use a byte-pair encoding (BPE) vocabulary subset distinct from the original BPE vocabulary, leading to performance improvements when retrained with the induced vocabulary. In this paper, we analyze this discrepancy in neural machine translation by examining vocabulary and entropy shifts during self-training--where each iteration generates a labeled dataset by pairing source sentences with the model's predictions to define a new vocabulary. Building on these insights, we propose self-vocabularizing training, an iterative method that self-selects a smaller, more optimal vocabulary, yielding up to a 1.49 BLEU improvement. Moreover, we find that deeper model architectures lead to both an increase in unique token usage and a 6-8% reduction in vocabulary size.
- Abstract(参考訳): 過去の語彙学習技術は、モデルトレーニングの役割をほとんど無視する統計的およびエントロピーに基づく仮定に依存して、トレーニング前の関連する語彙を特定する。
経験的に、訓練された翻訳モデルは、元のBPE語彙とは異なるバイトペア符号化(BPE)語彙サブセットを使用するように誘導される。
本稿では,ニューラルネットワーク翻訳におけるこの相違点を,自己学習中の語彙やエントロピーの変化を調べることによって解析する。
これらの知見に基づいて、我々はより小さく、より最適な語彙を自己選択する反復的手法である自己語彙学習を提案し、最大1.49BLEUの改善をもたらす。
さらに、より深いモデルアーキテクチャは、ユニークなトークンの使用量の増加と語彙サイズの6-8%の削減に繋がることがわかった。
関連論文リスト
- Prune or Retrain: Optimizing the Vocabulary of Multilingual Models for Estonian [0.19116784879310028]
エストニア語に適合するように多言語エンコーダモデルの語彙を変更すると、その下流のパフォーマンスに影響を及ぼす。
本稿では,2つの語彙適応手法の有効性を評価する。
論文 参考訳(メタデータ) (2025-01-05T19:21:45Z) - Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。
本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。
この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。
この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-10-03T08:07:14Z) - Large Vocabulary Size Improves Large Language Models [28.83786065307658]
単語語彙サイズと大規模言語モデル(LLM)の性能の関係について検討する。
実験結果から,LLMの語彙サイズが大きくなると性能が向上することがわかった。
事前定義された語彙の代わりに新しい語彙を使用するための簡単な方法を導入する。
論文 参考訳(メタデータ) (2024-06-24T10:27:07Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - AVocaDo: Strategy for Adapting Vocabulary to Downstream Domain [17.115865763783336]
本稿では,語彙を最適化可能なパラメータとして考慮し,ドメイン固有の語彙で拡張することで語彙を更新することを提案する。
我々は、事前学習された言語モデルから学習した知識を正規化項で活用することにより、付加された単語の埋め込みを、過剰適合から下流データへ保存する。
論文 参考訳(メタデータ) (2021-10-26T06:26:01Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。