論文の概要: Finding the Optimal Vocabulary Size for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.02334v2
- Date: Mon, 5 Oct 2020 15:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:01:02.292540
- Title: Finding the Optimal Vocabulary Size for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のための最適な語彙サイズ探索
- Authors: Thamme Gowda, Jonathan May
- Abstract要約: 自己回帰設定において,ニューラルネットワーク翻訳(NMT)を分類タスクとして用いた。
分類と自己回帰の両要素の限界を分析する。
語彙のサイズが他より優れている理由を説明する。
- 参考スコア(独自算出の注目度): 25.38870582223696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We cast neural machine translation (NMT) as a classification task in an
autoregressive setting and analyze the limitations of both classification and
autoregression components. Classifiers are known to perform better with
balanced class distributions during training. Since the Zipfian nature of
languages causes imbalanced classes, we explore its effect on NMT. We analyze
the effect of various vocabulary sizes on NMT performance on multiple languages
with many data sizes, and reveal an explanation for why certain vocabulary
sizes are better than others.
- Abstract(参考訳): 自動回帰設定において,ニューラルネットワーク翻訳(NMT)を分類タスクとし,分類と自己回帰の両方の限界を解析した。
分類器は、トレーニング中にバランスのとれたクラス分布でパフォーマンスが向上することが知られている。
言語におけるZipfianの性質は不均衡なクラスを引き起こすので、NMTに対するその影響を探求する。
様々な語彙サイズがNMTの性能に与える影響を,複数のデータサイズを持つ言語で分析し,ある語彙サイズが他の言語よりも優れている理由を説明する。
関連論文リスト
- T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource
Languages [1.8787713898828164]
本稿では,辞書の品質,学習データセットのサイズ,言語家族などの影響を詳細に分析する。
複数の低リソーステスト言語で得られた結果は、ベースラインよりもバイリンガル辞書ベースの方法の明確な利点を示している。
論文 参考訳(メタデータ) (2022-06-09T12:03:29Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Learning Feature Weights using Reward Modeling for Denoising Parallel
Corpora [36.292020779233056]
この研究は、複数の文レベルの特徴の重みを学習する代替アプローチを提示する。
この手法をエストニア語英語のパラクローリングコーパスを用いたニューラル機械翻訳(NMT)システムの構築に適用する。
本手法の異なる種類の雑音に対する感度を分析し,学習重み付けが他の言語対に一般化するかどうかを検討する。
論文 参考訳(メタデータ) (2021-03-11T21:45:45Z) - Linguistic Profiling of a Neural Language Model [1.0552465253379135]
本研究では,ニューラルネットワークモデル(NLM)が微調整前後に学習した言語知識について検討する。
BERTは、幅広い言語特性を符号化できるが、特定の下流タスクで訓練すると、その情報を失う傾向にある。
論文 参考訳(メタデータ) (2020-10-05T09:09:01Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。