論文の概要: Context-aware Decoder for Neural Machine Translation using a Target-side
Document-Level Language Model
- arxiv url: http://arxiv.org/abs/2010.12827v2
- Date: Mon, 15 Nov 2021 11:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:02:09.748176
- Title: Context-aware Decoder for Neural Machine Translation using a Target-side
Document-Level Language Model
- Title(参考訳): ターゲットサイド文書レベル言語モデルを用いたニューラルマシン翻訳のための文脈認識デコーダ
- Authors: Amane Sugiyama and Naoki Yoshinaga
- Abstract要約: 本稿では,文書レベルの言語モデルをデコーダに組み込むことで,文レベルの翻訳モデルを文脈認識モデルに変換する手法を提案する。
我々のデコーダは文レベルのパラレルコーパスとモノリンガルコーパスのみに基づいて構築されている。
理論的観点からは、この研究の核となる部分は、文脈と現在の文間のポイントワイドな相互情報を用いた文脈情報の新しい表現である。
- 参考スコア(独自算出の注目度): 12.543106304662059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although many context-aware neural machine translation models have been
proposed to incorporate contexts in translation, most of those models are
trained end-to-end on parallel documents aligned in sentence-level. Because
only a few domains (and language pairs) have such document-level parallel data,
we cannot perform accurate context-aware translation in most domains. We
therefore present a simple method to turn a sentence-level translation model
into a context-aware model by incorporating a document-level language model
into the decoder. Our context-aware decoder is built upon only a sentence-level
parallel corpora and monolingual corpora; thus no document-level parallel data
is needed. In a theoretical viewpoint, the core part of this work is the novel
representation of contextual information using point-wise mutual information
between context and the current sentence. We show the effectiveness of our
approach in three language pairs, English to French, English to Russian, and
Japanese to English, by evaluation in \textsc{bleu} and contrastive tests for
context-aware translation.
- Abstract(参考訳): 多くの文脈対応ニューラルマシン翻訳モデルは、翻訳にコンテキストを組み込むために提案されているが、ほとんどのモデルは、文レベルで整列された並列ドキュメントでエンドツーエンドに訓練されている。
このような文書レベルの並列データを持つドメイン(と言語ペア)はごくわずかであるため、ほとんどのドメインで正確なコンテキスト認識翻訳を行うことはできない。
そこで,文書レベルの言語モデルをデコーダに組み込むことにより,文レベルの翻訳モデルを文脈認識モデルに変換する簡単な方法を提案する。
文脈認識型デコーダは文レベルの並列コーパスと単言語コーパスだけで構築されており,文書レベルの並列データを必要としない。
理論的には,本研究の核となる部分は,文脈と現在の文間の視点的相互情報を用いた文脈情報の新たな表現である。
英語対フランス語対,英語対ロシア語対日本語対英語対の3つの言語対において,文脈認識翻訳におけるコントラストテストの評価により,本手法の有効性を示す。
関連論文リスト
- A Case Study on Context-Aware Neural Machine Translation with Multi-Task Learning [49.62044186504516]
文書レベルのニューラルネットワーク翻訳(DocNMT)では、コンテクストやソース文のエンコーディングにおいてマルチエンコーダアプローチが一般的である。
近年の研究では、コンテキストエンコーダがノイズを発生させ、コンテキストの選択に頑健なモデルを実現することが示されている。
本稿では、マルチタスク学習(MTL)を通してコンテキストエンコーディングを明示的にモデル化することで、コンテキスト選択に敏感なモデルを実現することにより、この観察をさらに検討する。
論文 参考訳(メタデータ) (2024-07-03T12:50:49Z) - Document-Level Language Models for Machine Translation [37.106125892770315]
文書レベルのモノリンガルデータを利用した文脈対応翻訳システムを構築した。
モデル組み合わせの最近の進歩を活用することで、既存のアプローチを改善します。
ほとんどのシナリオでは、バックトランスレーションは、翻訳システムを再トレーニングするコストを犠牲にして、よりよい結果をもたらす。
論文 参考訳(メタデータ) (2023-10-18T20:10:07Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Divide and Rule: Training Context-Aware Multi-Encoder Translation Models
with Little Resources [20.057692375546356]
マルチエンコーダモデルは、文書レベルのコンテキスト情報を現在の文と共にエンコードすることで、翻訳品質の向上を目指しています。
これらのパラメータのトレーニングは、コンテキストのトレーニング信号がスパースしているため、大量のデータを必要とする。
本稿では,並列文集合の訓練信号を豊かにするための,分割文対に基づく効率的な代替手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T15:15:32Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Capturing document context inside sentence-level neural machine
translation models with self-training [5.129814362802968]
文書レベルのニューラルマシン翻訳は、文レベルの翻訳よりもあまり注目されず、遅れを取っている。
本稿では,並列文書レベルのコーパス上で,特殊なモデルを訓練する必要のない手法を提案する。
我々のアプローチは、モデルによる選択を強化するため、文書内の他の文で同じ選択がされる可能性が高くなる。
論文 参考訳(メタデータ) (2020-03-11T12:36:17Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。