論文の概要: Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2001.01589v1
- Date: Thu, 2 Jan 2020 10:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:12:54.276625
- Title: Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のための凝集言語の形態的単語セグメンテーション
- Authors: Yirong Pan, Xiao Li, Yating Yang and Rui Dong
- Abstract要約: ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
- 参考スコア(独自算出の注目度): 8.87546236839959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural machine translation (NMT) has achieved impressive performance on
machine translation task in recent years. However, in consideration of
efficiency, a limited-size vocabulary that only contains the top-N highest
frequency words are employed for model training, which leads to many rare and
unknown words. It is rather difficult when translating from the low-resource
and morphologically-rich agglutinative languages, which have complex morphology
and large vocabulary. In this paper, we propose a morphological word
segmentation method on the source-side for NMT that incorporates morphology
knowledge to preserve the linguistic and semantic information in the word
structure while reducing the vocabulary size at training time. It can be
utilized as a preprocessing tool to segment the words in agglutinative
languages for other natural language processing (NLP) tasks. Experimental
results show that our morphologically motivated word segmentation method is
better suitable for the NMT model, which achieves significant improvements on
Turkish-English and Uyghur-Chinese machine translation tasks on account of
reducing data sparseness and language complexity.
- Abstract(参考訳): ニューラル機械翻訳(NMT)は近年,機械翻訳タスクにおいて顕著な性能を発揮している。
しかし、効率性を考慮すると、トップNの最高頻度単語のみを含む限定的な語彙がモデルトレーニングに用いられており、希少かつ未知の単語が多数存在する。
複雑な形態と大きな語彙を持つ低資源で形態的に豊かな凝集言語から翻訳するのは、かなり難しい。
本稿では,学習時の語彙サイズを低減しつつ,単語構造における言語的・意味的情報を保存するために形態的知識を組み込んだnmtのソース側での形態的単語分割手法を提案する。
これは、他の自然言語処理(nlp)タスクのために凝集言語で単語を分割する前処理ツールとして使うことができる。
実験結果から,本手法はトルコ・英語・ウイグル語・中国語の機械翻訳作業において,データの疎度と言語的複雑さを低減させるため,NMTモデルに適していることが明らかとなった。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Evaluation of Morphological Embeddings for the Russian Language [0.0]
SkipgramObjectiveで訓練されたモルフォロジーベースの埋め込みは、既存の埋め込みモデル-FastTextを上回っません。
より複雑な、しかしモルフォロジーを知らないモデル、BERTは、単語のモルフォロジーの理解を必要とするタスクで大幅に大きなパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2021-03-11T11:59:11Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Finding the Optimal Vocabulary Size for Neural Machine Translation [25.38870582223696]
自己回帰設定において,ニューラルネットワーク翻訳(NMT)を分類タスクとして用いた。
分類と自己回帰の両要素の限界を分析する。
語彙のサイズが他より優れている理由を説明する。
論文 参考訳(メタデータ) (2020-04-05T22:17:34Z) - Urdu-English Machine Transliteration using Neural Networks [0.0]
本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
論文 参考訳(メタデータ) (2020-01-12T17:30:42Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。