論文の概要: Data Augmentation by Concatenation for Low-Resource Translation: A
Mystery and a Solution
- arxiv url: http://arxiv.org/abs/2105.01691v1
- Date: Tue, 4 May 2021 18:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:51:05.064716
- Title: Data Augmentation by Concatenation for Low-Resource Translation: A
Mystery and a Solution
- Title(参考訳): 低リソース翻訳のための連結化によるデータ拡張:謎と解法
- Authors: Toan Q. Nguyen, Kenton Murray, David Chiang
- Abstract要約: 低リソースのニューラルマシン翻訳のためのシンプルで効果的なデータ拡張手法である連結の背後にある要因について検討する。
実験の結果, 4つの言語ペアで約+1 bleuが改善される原因は, 談話文脈にある可能性が示唆された。
- 参考スコア(独自算出の注目度): 25.290405977292934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the driving factors behind concatenation, a
simple but effective data augmentation method for low-resource neural machine
translation. Our experiments suggest that discourse context is unlikely the
cause for the improvement of about +1 BLEU across four language pairs. Instead,
we demonstrate that the improvement comes from three other factors unrelated to
discourse: context diversity, length diversity, and (to a lesser extent)
position shifting.
- Abstract(参考訳): 本稿では,低リソースニューラルマシン翻訳のための簡易かつ効果的なデータ拡張手法であるconcatenationの背後にある要因について検討する。
実験の結果, 4つの言語ペアで約+1 bleuが改善される原因は, 談話文脈にある可能性が示唆された。
その代わりに、この改善は、文脈の多様性、長さの多様性、(より少ない範囲に)位置シフトという、会話とは無関係な3つの要因から生じることを実証する。
関連論文リスト
- Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study [1.6819960041696331]
本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。
我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。
ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。
論文 参考訳(メタデータ) (2024-04-12T06:16:26Z) - Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - Phrase-level Adversarial Example Generation for Neural Machine
Translation [75.01476479100569]
本稿では,句レベルの逆例生成(PAEG)手法を提案し,モデルの堅牢性を高める。
我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。
論文 参考訳(メタデータ) (2022-01-06T11:00:49Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Sentence Concatenation Approach to Data Augmentation for Neural Machine
Translation [22.316934668106526]
本研究では,長文処理のための簡易データ拡張手法を提案する。
与えられた並列コーパスのみをトレーニングデータとして使用し、2つの文を連結して長文を生成する。
提案手法により, 逆翻訳と組み合わせた翻訳品質がさらに向上した。
論文 参考訳(メタデータ) (2021-04-17T08:04:42Z) - An Exploration of Data Augmentation Techniques for Improving English to
Tigrinya Translation [21.636157115922693]
補助データを生成する効果的な方法は、ターゲット言語文のバック翻訳です。
本稿では,Tigrinyaを事例として,合成原文を生成するバックトランスレーション法について検討する。
論文 参考訳(メタデータ) (2021-03-31T03:31:09Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。