論文の概要: Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies
- arxiv url: http://arxiv.org/abs/2203.13550v1
- Date: Fri, 25 Mar 2022 10:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 20:42:09.581316
- Title: Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies
- Title(参考訳): ニューラルマシン翻訳における目標側形態のモデル化:戦略の比較
- Authors: Marion Weller-Di Marco, Matthias Huck, Alexander Fraser
- Abstract要約: 形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
- 参考スコア(独自算出の注目度): 72.56158036639707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Morphologically rich languages pose difficulties to machine translation.
Machine translation engines that rely on statistical learning from parallel
training data, such as state-of-the-art neural systems, face challenges
especially with rich morphology on the output language side. Key challenges of
rich target-side morphology in data-driven machine translation include: (1) A
large amount of differently inflected word surface forms entails a larger
vocabulary and thus data sparsity. (2) Some inflected forms of infrequent terms
typically do not appear in the training corpus, which makes closed-vocabulary
systems unable to generate these unobserved variants. (3) Linguistic agreement
requires the system to correctly match the grammatical categories between
inflected word forms in the output sentence, both in terms of target-side
morpho-syntactic wellformedness and semantic adequacy with respect to the
input.
In this paper, we re-investigate two target-side linguistic processing
techniques: a lemma-tag strategy and a linguistically informed word
segmentation strategy. Our experiments are conducted on a English-German
translation task under three training corpus conditions of different
magnitudes. We find that a stronger Transformer baseline leaves less room for
improvement than a shallow-RNN encoder-decoder model when translating
in-domain. However, we find that linguistic modeling of target-side morphology
does benefit the Transformer model when the same system is applied to
out-of-domain input text. We also successfully apply our approach to English to
Czech translation.
- Abstract(参考訳): 形態的に豊かな言語は機械翻訳に困難をもたらす。
最先端のニューラルネットワークのような並列トレーニングデータからの統計的学習に依存する機械翻訳エンジンは、特に出力言語側でリッチな形態学の課題に直面している。
データ駆動機械翻訳における、リッチな目標側形態の鍵となる課題は、(1)大きな語彙とデータスパーシティを伴う、異なる異なる異なる語の表面形態の大量発生である。
2) 頻度の低い数式は、通常、訓練コーパスには現れず、閉語彙系はこれらの観測されていない変種を生成できない。
3) 言語的合意は, 入力に対して, 対象側の形態・シアンティック・ウェルフォードネスと意味的妥当性の両面から, 入力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
本稿では,2つの言語処理手法,補題タグ戦略と言語情報による単語分割戦略を再検討する。
実験は、異なる大きさの3つの学習コーパス条件の下で、英語とドイツ語の翻訳タスクで実施した。
トランスフォーマのベースラインが強くなると、ドメイン内変換時のshre-rnnエンコーダ-デコーダモデルよりも改善の余地が少なくなることがわかった。
しかし,同一システムがドメイン外入力テキストに適用された場合,対象側形態の言語モデルがトランスフォーマーモデルに有用であることが判明した。
また、私たちのアプローチをチェコ語翻訳に適用することに成功した。
関連論文リスト
- Low-resource neural machine translation with morphological modeling [3.3721926640077804]
ニューラルマシン翻訳(NMT)における形態的モデリングは、オープン語彙機械翻訳を実現するための有望なアプローチである。
低リソース環境における複雑な形態をモデル化するためのフレームワークソリューションを提案する。
パブリックドメインのパラレルテキストを用いた英訳であるKinyarwandaについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T01:31:41Z) - Quantifying Synthesis and Fusion and their Impact on Machine Translation [79.61874492642691]
自然言語処理(NLP)では、一般に、融合や凝集のような厳密な形態を持つ言語全体をラベル付けする。
本研究では,単語とセグメントレベルで形態型を定量化することにより,そのようなクレームの剛性を低減することを提案する。
本研究では, 英語, ドイツ語, トルコ語の非教師なし・教師付き形態素分割法について検討する一方, 融合ではスペイン語を用いた半自動手法を提案する。
そして、機械翻訳品質と単語(名詞と動詞)における合成・融合の程度との関係を分析する。
論文 参考訳(メタデータ) (2022-05-06T17:04:58Z) - How Suitable Are Subword Segmentation Strategies for Translating
Non-Concatenative Morphology? [26.71325671956197]
各種形態素現象のセグメンテーション戦略を評価するためのテストスイートを設計する。
形態学的に複雑な表面表現を解析・生成する学習は依然として困難である。
論文 参考訳(メタデータ) (2021-09-02T17:23:21Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Neural Baselines for Word Alignment [0.0]
4つの言語対に対する教師なし単語アライメントのためのニューラルモデルの検討と評価を行った。
我々は、IBM-1と隠れマルコフモデルのニューラルバージョンが、個々のモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-09-28T07:51:03Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Urdu-English Machine Transliteration using Neural Networks [0.0]
本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
論文 参考訳(メタデータ) (2020-01-12T17:30:42Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。