論文の概要: Learn To Remember: Transformer with Recurrent Memory for Document-Level
Machine Translation
- arxiv url: http://arxiv.org/abs/2205.01546v1
- Date: Tue, 3 May 2022 14:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 16:56:02.952475
- Title: Learn To Remember: Transformer with Recurrent Memory for Document-Level
Machine Translation
- Title(参考訳): learn to remember: 文書レベルの機械翻訳のためのリカレントメモリ付きトランスフォーマー
- Authors: Yukun Feng, Feng Li, Ziang Song, Boyuan Zheng, Philipp Koehn
- Abstract要約: バニラ変換器にリカレントメモリユニットを導入し、文と前のコンテキスト間の情報交換をサポートする。
我々は文書レベルの機械翻訳のための3つの一般的なデータセットの実験を行い、我々のモデルは文レベルのベースラインに対して平均0.91 s-BLEUの改善を行っている。
- 参考スコア(独自算出の注目度): 14.135048254120615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture has led to significant gains in machine
translation. However, most studies focus on only sentence-level translation
without considering the context dependency within documents, leading to the
inadequacy of document-level coherence. Some recent research tried to mitigate
this issue by introducing an additional context encoder or translating with
multiple sentences or even the entire document. Such methods may lose the
information on the target side or have an increasing computational complexity
as documents get longer. To address such problems, we introduce a recurrent
memory unit to the vanilla Transformer, which supports the information exchange
between the sentence and previous context. The memory unit is recurrently
updated by acquiring information from sentences, and passing the aggregated
knowledge back to subsequent sentence states. We follow a two-stage training
strategy, in which the model is first trained at the sentence level and then
finetuned for document-level translation. We conduct experiments on three
popular datasets for document-level machine translation and our model has an
average improvement of 0.91 s-BLEU over the sentence-level baseline. We also
achieve state-of-the-art results on TED and News, outperforming the previous
work by 0.36 s-BLEU and 1.49 d-BLEU on average.
- Abstract(参考訳): Transformerアーキテクチャは機械翻訳において大きな進歩をもたらした。
しかし、ほとんどの研究は文書内の文脈依存を考慮せずに文レベルの翻訳のみに焦点を当てており、文書レベルの一貫性の欠如につながっている。
最近の研究では、追加のコンテキストエンコーダを導入するか、複数の文やドキュメント全体を翻訳することでこの問題を緩和しようと試みている。
このような手法は、ターゲット側の情報を失うか、ドキュメントが長くなるにつれて計算の複雑さが増す可能性がある。
このような問題に対処するため,バニラ変換器にリカレントメモリユニットを導入し,文と前のコンテキスト間の情報交換をサポートする。
メモリユニットは、文から情報を取得し、集約された知識をその後の文状態に戻して再更新する。
まず、文レベルでモデルをトレーニングし、次に文書レベルの翻訳のために微調整する2段階のトレーニング戦略に従う。
我々は文書レベルの機械翻訳のための3つの一般的なデータセットの実験を行い、我々のモデルは文レベルのベースラインに対して平均0.91 s-BLEUの改善を行っている。
我々はTEDとNewsの最先端の成果も達成し、これまでの成果を平均0.36 s-BLEUと1.49 d-BLEUで上回った。
関連論文リスト
- Document-Level Language Models for Machine Translation [37.106125892770315]
文書レベルのモノリンガルデータを利用した文脈対応翻訳システムを構築した。
モデル組み合わせの最近の進歩を活用することで、既存のアプローチを改善します。
ほとんどのシナリオでは、バックトランスレーションは、翻訳システムを再トレーニングするコストを犠牲にして、よりよい結果をもたらす。
論文 参考訳(メタデータ) (2023-10-18T20:10:07Z) - Improving Long Context Document-Level Machine Translation [51.359400776242786]
翻訳の一貫性と凝集性を改善するために、ニューラルネットワーク翻訳(NMT)のための文書レベルのコンテキストが不可欠である。
文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では局所的な文脈に制限されている。
本稿では、メモリ消費を同時に低減しつつ、シーケンスの最も関連性の高い部分に注意を集中させる制約付注意変種を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:28:48Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Challenges in Context-Aware Neural Machine Translation [39.89082986080746]
コンテキスト対応ニューラルマシン翻訳は、会話依存を解決するために、文レベルのコンテキストを超えた情報を活用する。
十分な直感にもかかわらず、ほとんどの文脈対応翻訳モデルは、文レベルシステムよりもわずかに改善されている。
本稿では,パラパラグラフ(パラパラグラフ)翻訳という,文書レベルの翻訳のより現実的な設定を提案する。
論文 参考訳(メタデータ) (2023-05-23T07:08:18Z) - Escaping the sentence-level paradigm in machine translation [13.124981874465972]
文書テキスト機械翻訳における多くの作業は存在するが、様々な理由により達成できなかった。
特殊アーキテクチャの作業とは対照的に,標準トランスフォーマーアーキテクチャは十分であることを示す。
本稿では,文書システム間でより識別しやすい,既存のコントラスト指標の生成的変種を提案する。
論文 参考訳(メタデータ) (2023-04-25T16:09:02Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Modeling Context With Linear Attention for Scalable Document-Level
Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文 参考訳(メタデータ) (2022-10-16T03:41:50Z) - Rethinking Document-level Neural Machine Translation [73.42052953710605]
現在のモデルでは、ドキュメントレベルの翻訳に十分な能力がありますか?
適切なトレーニング技術を持つオリジナルのトランスフォーマーは,2000語の長さであっても,文書翻訳の強力な結果が得られることを観察する。
論文 参考訳(メタデータ) (2020-10-18T11:18:29Z) - Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation [28.94748226472447]
文書レベルの翻訳における標準変換器の長所と短所について検討する。
本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
論文 参考訳(メタデータ) (2020-09-19T00:29:51Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。