論文の概要: Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2009.09127v1
- Date: Sat, 19 Sep 2020 00:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 20:52:57.211359
- Title: Long-Short Term Masking Transformer: A Simple but Effective Baseline for
Document-level Neural Machine Translation
- Title(参考訳): 長短項マスキングトランスフォーマー : 文書レベルニューラルマシン翻訳のための単純だが効果的なベースライン
- Authors: Pei Zhang, Boxing Chen, Niyu Ge, Kai Fan
- Abstract要約: 文書レベルの翻訳における標準変換器の長所と短所について検討する。
本稿では,標準変圧器上での自己注意を隠蔽する,驚くほど単純な長短項マスクを提案する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
- 参考スコア(独自算出の注目度): 28.94748226472447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many document-level neural machine translation (NMT) systems have explored
the utility of context-aware architecture, usually requiring an increasing
number of parameters and computational complexity. However, few attention is
paid to the baseline model. In this paper, we research extensively the pros and
cons of the standard transformer in document-level translation, and find that
the auto-regressive property can simultaneously bring both the advantage of the
consistency and the disadvantage of error accumulation. Therefore, we propose a
surprisingly simple long-short term masking self-attention on top of the
standard transformer to both effectively capture the long-range dependence and
reduce the propagation of errors. We examine our approach on the two publicly
available document-level datasets. We can achieve a strong result in BLEU and
capture discourse phenomena.
- Abstract(参考訳): 多くの文書レベルのニューラルマシン翻訳(NMT)システムは、コンテキスト認識アーキテクチャの有用性を探求しており、通常はパラメータの数の増加と計算複雑性を必要とする。
しかし、ベースラインモデルにはほとんど注意が払われていない。
本稿では,文書レベルの翻訳における標準変圧器の長所と短所を広く研究し,自己回帰特性が一貫性と誤り蓄積の長所の両方を同時にもたらすことを発見した。
そこで本研究では, 標準変圧器の上部に有意な簡易な長短項マスキング・セルフアテンションを適用し, 長距離依存性を効果的に捉え, 誤差の伝播を低減させる手法を提案する。
本稿では,2つの公開文書レベルデータセットに対するアプローチを検討する。
BLEUの強い結果が得られ、談話現象を捉えることができる。
関連論文リスト
- Towards Inducing Document-Level Abilities in Standard Multilingual Neural Machine Translation Models [4.625277907331917]
この研究は、訓練済みのNMTモデルを絶対正弦波のPEから相対的なPEに移行するという課題に対処する。
パラメータ効率のよい微調整は,少量の高品質なデータしか利用せず,この遷移をうまく促進できることを示す。
いくつかの言語における少量の長文データが、言語間長の一般化に十分であることがわかった。
論文 参考訳(メタデータ) (2024-08-21T07:23:34Z) - Long-Range Transformer Architectures for Document Understanding [1.9331361036118608]
Document Understanding (DU)は、2019年後半のDUの最初のTransformerベースのモデルで残されたものではなかった。
本稿では,2つの新しいマルチモーダル(テキスト+レイアウト)長範囲モデルを提案する。
相対的な2次元の注意は、正規および長距離の両方のモデルにおいて高密度テキストに有効であることが判明した。
論文 参考訳(メタデータ) (2023-09-11T14:45:24Z) - Attention over pre-trained Sentence Embeddings for Long Document
Classification [4.38566347001872]
変圧器はトークンの数に2次注意の複雑さがあるため、短いシーケンスに制限されることが多い。
文を意味的に意味のある埋め込みから始めるために,事前学習した文変換器を活用することを提案する。
本稿では,3つの標準文書分類データセットに対して,この簡単なアーキテクチャを用いて得られた結果について報告する。
論文 参考訳(メタデータ) (2023-07-18T09:06:35Z) - Improving Long Context Document-Level Machine Translation [51.359400776242786]
翻訳の一貫性と凝集性を改善するために、ニューラルネットワーク翻訳(NMT)のための文書レベルのコンテキストが不可欠である。
文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では局所的な文脈に制限されている。
本稿では、メモリ消費を同時に低減しつつ、シーケンスの最も関連性の高い部分に注意を集中させる制約付注意変種を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:28:48Z) - Modeling Context With Linear Attention for Scalable Document-Level
Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文 参考訳(メタデータ) (2022-10-16T03:41:50Z) - Learn To Remember: Transformer with Recurrent Memory for Document-Level
Machine Translation [14.135048254120615]
バニラ変換器にリカレントメモリユニットを導入し、文と前のコンテキスト間の情報交換をサポートする。
我々は文書レベルの機械翻訳のための3つの一般的なデータセットの実験を行い、我々のモデルは文レベルのベースラインに対して平均0.91 s-BLEUの改善を行っている。
論文 参考訳(メタデータ) (2022-05-03T14:55:53Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Rethinking Document-level Neural Machine Translation [73.42052953710605]
現在のモデルでは、ドキュメントレベルの翻訳に十分な能力がありますか?
適切なトレーニング技術を持つオリジナルのトランスフォーマーは,2000語の長さであっても,文書翻訳の強力な結果が得られることを観察する。
論文 参考訳(メタデータ) (2020-10-18T11:18:29Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。