論文の概要: G-Transformer for Document-level Machine Translation
- arxiv url: http://arxiv.org/abs/2105.14761v1
- Date: Mon, 31 May 2021 07:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:44:05.861755
- Title: G-Transformer for Document-level Machine Translation
- Title(参考訳): 文書レベル機械翻訳用g変換器
- Authors: Guangsheng Bao, Yue Zhang, Zhiyang Teng, Boxing Chen and Weihua Luo
- Abstract要約: 変換ユニットをドキュメント全体に拡大すると、Transformerの教師付きトレーニングが失敗する可能性があることを示す。
分析の結果,ターゲット・ソース・アテンションの複雑化が失敗の原因であることが示唆された。
そこで我々は,G-Transformerを提案する。G-Transformerは,Transformerへの帰納バイアスとして仮定を導入し,ターゲットからソースへの注目の仮説空間を小さくする。
- 参考スコア(独自算出の注目度): 26.3983306324392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-level MT models are still far from satisfactory. Existing work
extend translation unit from single sentence to multiple sentences. However,
study shows that when we further enlarge the translation unit to a whole
document, supervised training of Transformer can fail. In this paper, we find
such failure is not caused by overfitting, but by sticking around local minima
during training. Our analysis shows that the increased complexity of
target-to-source attention is a reason for the failure. As a solution, we
propose G-Transformer, introducing locality assumption as an inductive bias
into Transformer, reducing the hypothesis space of the attention from target to
source. Experiments show that G-Transformer converges faster and more stably
than Transformer, achieving new state-of-the-art BLEU scores for both
non-pretraining and pre-training settings on three benchmark datasets.
- Abstract(参考訳): 文書レベルのMTモデルは、まだ満足には程遠い。
既存の作業は翻訳単位を単一文から複数文に拡張する。
しかし,本研究では,翻訳ユニットを文書全体へ拡張すると,トランスフォーマーの教師あり訓練が失敗することを示した。
本稿では,このような失敗は過剰フィッティングによるものではなく,訓練中の局所ミニマの周囲に付着することによるものである。
分析の結果、ターゲットからソースへの注意の複雑さが増加することが失敗の原因であることが判明した。
そこで本稿では,g-transformerを提案する。局所性仮定を変圧器への帰納バイアスとして導入し,対象からソースへの注意の仮説空間を減少させる。
実験の結果、G-TransformerはTransformerよりも高速で安定して収束し、3つのベンチマークデータセットの非事前学習と事前学習の両方のために、最先端のBLEUスコアを新たに達成した。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Transformers Handle Endogeneity in In-Context Linear Regression [34.458004744956334]
インストゥルメンタル変数(IV)を用いて内在性を効果的に扱うメカニズムをトランスフォーマーが本質的に持っていることを示す。
提案手法では,事前学習損失の最小化が最小限の余剰損失を達成できることを示す理論的保証を提供する。
論文 参考訳(メタデータ) (2024-10-02T06:21:04Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - Learn To Remember: Transformer with Recurrent Memory for Document-Level
Machine Translation [14.135048254120615]
バニラ変換器にリカレントメモリユニットを導入し、文と前のコンテキスト間の情報交換をサポートする。
我々は文書レベルの機械翻訳のための3つの一般的なデータセットの実験を行い、我々のモデルは文レベルのベースラインに対して平均0.91 s-BLEUの改善を行っている。
論文 参考訳(メタデータ) (2022-05-03T14:55:53Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - On the Strengths of Cross-Attention in Pretrained Transformers for
Machine Translation [44.36297199737276]
機械翻訳の文脈におけるトランスフォーマーアーキテクチャにおけるクロスアテンションの力について検討する。
新しい言語でデータセット上で翻訳モデルを微調整するトランスファーラーニング実験では、新しい言語の埋め込みとは別に、競合するBLEUパフォーマンスを得るためには、クロスアテンションパラメータのみを微調整する必要があることがわかります。
論文 参考訳(メタデータ) (2021-04-18T08:41:01Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。