論文の概要: Capturing document context inside sentence-level neural machine
translation models with self-training
- arxiv url: http://arxiv.org/abs/2003.05259v1
- Date: Wed, 11 Mar 2020 12:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:31:17.805308
- Title: Capturing document context inside sentence-level neural machine
translation models with self-training
- Title(参考訳): 自己学習型文レベルのニューラルマシン翻訳モデルにおける文書コンテキストのキャプチャ
- Authors: Elman Mansimov, G\'abor Melis, Lei Yu
- Abstract要約: 文書レベルのニューラルマシン翻訳は、文レベルの翻訳よりもあまり注目されず、遅れを取っている。
本稿では,並列文書レベルのコーパス上で,特殊なモデルを訓練する必要のない手法を提案する。
我々のアプローチは、モデルによる選択を強化するため、文書内の他の文で同じ選択がされる可能性が高くなる。
- 参考スコア(独自算出の注目度): 5.129814362802968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural machine translation (NMT) has arguably achieved human level parity
when trained and evaluated at the sentence-level. Document-level neural machine
translation has received less attention and lags behind its sentence-level
counterpart. The majority of the proposed document-level approaches investigate
ways of conditioning the model on several source or target sentences to capture
document context. These approaches require training a specialized NMT model
from scratch on parallel document-level corpora. We propose an approach that
doesn't require training a specialized model on parallel document-level corpora
and is applied to a trained sentence-level NMT model at decoding time. We
process the document from left to right multiple times and self-train the
sentence-level model on pairs of source sentences and generated translations.
Our approach reinforces the choices made by the model, thus making it more
likely that the same choices will be made in other sentences in the document.
We evaluate our approach on three document-level datasets: NIST
Chinese-English, WMT'19 Chinese-English and OpenSubtitles English-Russian. We
demonstrate that our approach has higher BLEU score and higher human preference
than the baseline. Qualitative analysis of our approach shows that choices made
by model are consistent across the document.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)は、文レベルでの訓練と評価において、人間のレベルパリティを確実に達成している。
文書レベルのニューラルマシン翻訳は、文レベルの翻訳よりもあまり注目されず、遅れを取っている。
提案する文書レベルのアプローチの大半は、複数のソースまたはターゲット文にモデルを条件付けして文書コンテキストをキャプチャする方法を調査する。
これらのアプローチでは、並列文書レベルのコーパスをスクラッチから特別なNMTモデルを訓練する必要がある。
本稿では,並列文書レベルのコーパスで特別なモデルを訓練する必要がなく,復号時に訓練された文レベルのNMTモデルに適用する手法を提案する。
文書を左から右に複数回処理し,原文のペアと生成した翻訳に対して文レベルのモデルを自己学習する。
我々のアプローチは、モデルによってなされる選択を強化するので、ドキュメント内の他の文で同じ選択が行われる可能性が高まる。
NIST Chinese- English, WMT'19 Chinese- English, OpenSubtitles English- Russian の3つの文書レベルのデータセットに対するアプローチを評価する。
提案手法はBLEUスコアが高く,ヒトの嗜好がベースラインよりも高いことを示す。
我々のアプローチの質的な分析は、モデルによる選択がドキュメント全体にわたって一貫性があることを示しています。
関連論文リスト
- On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - SMDT: Selective Memory-Augmented Neural Document Translation [53.4627288890316]
本稿では,文脈の広い仮説空間を含む文書を扱うために,選択的メモリ拡張型ニューラル文書翻訳モデルを提案する。
トレーニングコーパスから類似のバイリンガル文ペアを抽出し,グローバルな文脈を拡大する。
ローカルなコンテキストと多様なグローバルなコンテキストをキャプチャする選択的なメカニズムで、2ストリームのアテンションモデルを拡張する。
論文 参考訳(メタデータ) (2022-01-05T14:23:30Z) - Divide and Rule: Training Context-Aware Multi-Encoder Translation Models
with Little Resources [20.057692375546356]
マルチエンコーダモデルは、文書レベルのコンテキスト情報を現在の文と共にエンコードすることで、翻訳品質の向上を目指しています。
これらのパラメータのトレーニングは、コンテキストのトレーニング信号がスパースしているため、大量のデータを必要とする。
本稿では,並列文集合の訓練信号を豊かにするための,分割文対に基づく効率的な代替手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T15:15:32Z) - Rethinking Document-level Neural Machine Translation [73.42052953710605]
現在のモデルでは、ドキュメントレベルの翻訳に十分な能力がありますか?
適切なトレーニング技術を持つオリジナルのトランスフォーマーは,2000語の長さであっても,文書翻訳の強力な結果が得られることを観察する。
論文 参考訳(メタデータ) (2020-10-18T11:18:29Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。