論文の概要: Promoting Target Data in Context-aware Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2402.06342v1
- Date: Fri, 9 Feb 2024 11:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:04:54.971333
- Title: Promoting Target Data in Context-aware Neural Machine Translation
- Title(参考訳): 文脈認識ニューラルマシン翻訳における対象データの促進
- Authors: Harritxu Gete and Thierry Etchegoyhen
- Abstract要約: 我々は,対象のコンテキストがソース言語に前置されるような,新しい結合に基づく変種を評価する。
ソースにターゲットコンテキストを含めることで、ターゲット言語現象に大きな改善がもたらされることを示す。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard context-aware neural machine translation (NMT) typically relies on
parallel document-level data, exploiting both source and target contexts.
Concatenation-based approaches in particular, still a strong baseline for
document-level NMT, prepend source and/or target context sentences to the
sentences to be translated, with model variants that exploit equal amounts of
source and target data on each side achieving state-of-the-art results. In this
work, we investigate whether target data should be further promoted within
standard concatenation-based approaches, as most document-level phenomena rely
on information that is present on the target language side. We evaluate novel
concatenation-based variants where the target context is prepended to the
source language, either in isolation or in combination with the source context.
Experimental results in English-Russian and Basque-Spanish show that including
target context in the source leads to large improvements on target language
phenomena. On source-dependent phenomena, using only target language context in
the source achieves parity with state-of-the-art concatenation approaches, or
slightly underperforms, whereas combining source and target context on the
source side leads to significant gains across the board.
- Abstract(参考訳): standard context-aware neural machine translation (nmt) は、典型的には並列文書レベルのデータに依存し、ソースとターゲットの両方のコンテキストを利用する。
特に結合に基づくアプローチは、文書レベルのNMT、プリペイドソース、および/または翻訳すべき文に対するターゲットコンテキスト文の強力なベースラインであり、各サイドで同じ量のソースとターゲットデータを利用するモデル変種が最先端の結果を達成する。
本研究では,文書レベルの現象の多くは,対象言語側に存在する情報に依存しているため,標準連結型アプローチで対象データがさらに促進されるべきかどうかを検討する。
対象とするコンテキストがソース言語に事前設定されている新しい結合ベースの変異を,分離的あるいはソースコンテキストと組み合わせて評価する。
英語とロシア語とバスクスペイン語の実験的結果は、ソースにターゲットコンテキストを含めることで、ターゲット言語現象に大きな改善をもたらすことを示している。
ソース依存現象では、ソース内のターゲット言語コンテキストのみを使用することで、最先端の結合アプローチ、あるいは少し下回るパフォーマンスを実現する一方で、ソース側のソースコンテキストとターゲットコンテキストの組み合わせは、ボード全体の大幅な向上につながる。
関連論文リスト
- Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。
我々は、機械翻訳の使用を含む、様々なアプローチを実験する。
言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文 参考訳(メタデータ) (2024-09-30T07:59:41Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Diverse Pretrained Context Encodings Improve Document Translation [31.03899564183553]
複数の事前訓練された文書コンテキスト信号を組み込んだ文レベルのシーケンス・ツー・シーケンス・トランスフォーマに適応する新しいアーキテクチャを提案する。
最高のマルチコンテキストモデルは、既存のコンテクスト対応トランスフォーマーよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-07T15:28:01Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。