論文の概要: Sentence Concatenation Approach to Data Augmentation for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2104.08478v1
- Date: Sat, 17 Apr 2021 08:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 04:48:54.993388
- Title: Sentence Concatenation Approach to Data Augmentation for Neural Machine
Translation
- Title(参考訳): 文結合によるニューラルマシン翻訳のためのデータ拡張
- Authors: Seiichiro Kondo and Kengo Hotate and Masahiro Kaneko and Mamoru
Komachi
- Abstract要約: 本研究では,長文処理のための簡易データ拡張手法を提案する。
与えられた並列コーパスのみをトレーニングデータとして使用し、2つの文を連結して長文を生成する。
提案手法により, 逆翻訳と組み合わせた翻訳品質がさらに向上した。
- 参考スコア(独自算出の注目度): 22.316934668106526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural machine translation (NMT) has recently gained widespread attention
because of its high translation accuracy. However, it shows poor performance in
the translation of long sentences, which is a major issue in low-resource
languages. It is assumed that this issue is caused by insufficient number of
long sentences in the training data. Therefore, this study proposes a simple
data augmentation method to handle long sentences. In this method, we use only
the given parallel corpora as the training data and generate long sentences by
concatenating two sentences. Based on the experimental results, we confirm
improvements in long sentence translation by the proposed data augmentation
method, despite its simplicity. Moreover, the translation quality is further
improved by the proposed method, when combined with back-translation.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)は、翻訳精度が高いため、最近広く注目を集めている。
しかし、低リソース言語の主要な問題である長い文の翻訳における性能は低下している。
この問題は、訓練データに長文が不足していることに起因すると推定される。
そこで本研究では,長文処理のための簡易データ拡張手法を提案する。
本手法では、与えられた並列コーパスのみを訓練データとして使用し、2つの文を連結して長文を生成する。
実験結果から, 単純性に拘わらず, 提案手法による長文翻訳の改善を確認した。
さらに,バックトランスレーションと組み合わせた場合,提案手法により翻訳品質がさらに向上する。
関連論文リスト
- Simplifying Translations for Children: Iterative Simplification Considering Age of Acquisition with LLMs [19.023628411128406]
本稿では,翻訳における単語をAoA(High Age of Acquisitions)に置き換える手法を提案する。
その結果,提案手法は高AoA語を低AoA語に効果的に置き換えることを示した。
論文 参考訳(メタデータ) (2024-08-08T04:57:36Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Monotonic Simultaneous Translation with Chunk-wise Reordering and
Refinement [38.89496608319392]
本稿では,全文翻訳コーパスの目的側を並べ替え,洗練するアルゴリズムを提案する。
ソースとターゲットの文間の単語/フレーズは、単語アライメントと非自己回帰型ニューラルマシン翻訳を用いて、主に単調に配列される。
提案手法はBLEUのスコアを改良し,結果の翻訳により文の単調性が向上する。
論文 参考訳(メタデータ) (2021-10-18T22:51:21Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。