論文の概要: Leveraging Discourse Rewards for Document-Level Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2010.03732v2
- Date: Mon, 19 Oct 2020 23:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:57:10.070973
- Title: Leveraging Discourse Rewards for Document-Level Neural Machine
Translation
- Title(参考訳): 文書レベルのニューラルマシン翻訳における談話報酬の活用
- Authors: Inigo Jauregi Unanue, Nazanin Esmaili, Gholamreza Haffari, Massimo
Piccardi
- Abstract要約: 我々は,2つの確立された談話指標である語彙凝集(LC)とコヒーレンス(COH)を明示的に最適化する学習手法を提案する。
私たちのトレーニングアプローチは、他の競争的アプローチよりも密集的で一貫性のあるドキュメント翻訳を実現することができました。
- 参考スコア(独自算出の注目度): 46.006636555165414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-level machine translation focuses on the translation of entire
documents from a source to a target language. It is widely regarded as a
challenging task since the translation of the individual sentences in the
document needs to retain aspects of the discourse at document level. However,
document-level translation models are usually not trained to explicitly ensure
discourse quality. Therefore, in this paper we propose a training approach that
explicitly optimizes two established discourse metrics, lexical cohesion (LC)
and coherence (COH), by using a reinforcement learning objective. Experiments
over four different language pairs and three translation domains have shown
that our training approach has been able to achieve more cohesive and coherent
document translations than other competitive approaches, yet without
compromising the faithfulness to the reference translation. In the case of the
Zh-En language pair, our method has achieved an improvement of 2.46 percentage
points (pp) in LC and 1.17 pp in COH over the runner-up, while at the same time
improving 0.63 pp in BLEU score and 0.47 pp in F_BERT.
- Abstract(参考訳): 文書レベルの機械翻訳は、ソースからターゲット言語への文書全体の翻訳に焦点を当てている。
文書内の個々の文の翻訳は、文書レベルでの談話の側面を保持する必要があるため、この課題は広く考えられている。
しかしながら、文書レベルの翻訳モデルは通常、談話の品質を明確に保証するために訓練されていない。
そこで,本稿では,強化学習目標を用いて,Lexical Cohesion(LC)とCoherence(COH)という2つの確立された談話指標を明示的に最適化する学習手法を提案する。
4つの異なる言語ペアと3つの翻訳ドメインの実験により、我々のトレーニングアプローチは、他の競争的アプローチよりも密集的で一貫性のある文書翻訳を実現することができたが、参照翻訳への忠実さを損なうことはなかった。
zh-en言語対の場合、本手法は2.46パーセンテージ点(pp)と1.17pp(coh)の改善を達成し、さらに1.63pp(bleuスコア)と0.47pp(f_bert)を達成した。
関連論文リスト
- BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Enhancing Document-level Translation of Large Language Model via
Translation Mixed-instructions [24.025242477280983]
機械翻訳のための既存の大きな言語モデル(LLM)は、典型的には文レベルの翻訳命令に基づいて微調整される。
この課題は、文レベルのカバレッジの問題から生じ、文書のその後の文は転写されないままである。
様々な長さの文レベルと文書レベルの翻訳命令を微調整LLMに結合する手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:28:26Z) - Evaluating Optimal Reference Translations [4.956416618428049]
本稿では,より信頼性の高い文書レベルの人文参照翻訳手法を提案する。
得られた文書レベルの最適参照翻訳を「標準」翻訳と比較して評価した。
論文 参考訳(メタデータ) (2023-11-28T13:50:50Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Large language models effectively leverage document-level context for
literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (2023-04-06T17:27:45Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - DOCmT5: Document-Level Pretraining of Multilingual Language Models [9.072507490639218]
DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。
本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。
DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2021-12-16T08:58:52Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。