論文の概要: Dynamic Position Encoding for Transformers
- arxiv url: http://arxiv.org/abs/2204.08142v1
- Date: Mon, 18 Apr 2022 03:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 14:44:55.020133
- Title: Dynamic Position Encoding for Transformers
- Title(参考訳): 変圧器の動的位置符号化
- Authors: Joyce Zheng, Mehdi Rezagholizadeh, Peyman Passban
- Abstract要約: 再発モデルは、過去数年間、ニューラルネットワーク翻訳(NMT)の分野を支配してきた。
トランスフォーマーは、非リカレントな性質のため、シーケンシャル/ポジション情報を適切にエンコードできない可能性がある。
本稿では,この欠点に対処するため,入力テキストに応じて新しい位置埋め込みを持つ新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 18.315954297959617
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recurrent models have been dominating the field of neural machine translation
(NMT) for the past few years. Transformers \citep{vaswani2017attention}, have
radically changed it by proposing a novel architecture that relies on a
feed-forward backbone and self-attention mechanism. Although Transformers are
powerful, they could fail to properly encode sequential/positional information
due to their non-recurrent nature. To solve this problem, position embeddings
are defined exclusively for each time step to enrich word information. However,
such embeddings are fixed after training regardless of the task and the word
ordering system of the source or target language.
In this paper, we propose a novel architecture with new position embeddings
depending on the input text to address this shortcoming by taking the order of
target words into consideration. Instead of using predefined position
embeddings, our solution \textit{generates} new embeddings to refine each
word's position information. Since we do not dictate the position of source
tokens and learn them in an end-to-end fashion, we refer to our method as
\textit{dynamic} position encoding (DPE). We evaluated the impact of our model
on multiple datasets to translate from English into German, French, and Italian
and observed meaningful improvements in comparison to the original Transformer.
- Abstract(参考訳): 再発モデルは、過去数年間、ニューラルネットワーク翻訳(NMT)の分野を支配してきた。
Transformers \citep{vaswani2017attention} は、フィードフォワードバックボーンとセルフアテンション機構に依存する新しいアーキテクチャを提案し、それを根本的に変えた。
トランスフォーマーは強力だが、非リカレントな性質のためにシーケンシャル/位置情報を適切にエンコードできない可能性がある。
この問題を解決するために、単語情報を豊かにする各時間ステップにのみ位置埋め込みが定義される。
しかし、そのような埋め込みは、ソースまたはターゲット言語のタスクおよびワード順序システムに関係なく、トレーニング後に固定される。
本稿では,対象単語の順序を考慮し,この欠点に対処するため,入力テキストに依存する新しい位置埋め込み型アーキテクチャを提案する。
事前に定義された位置埋め込みを使う代わりに、ソリューションの \textit{generates} は各単語の位置情報を洗練するための新しい埋め込みである。
我々は、ソーストークンの位置を定式化せず、エンドツーエンドで学習するため、この手法を \textit{dynamic} position encoding (DPE) と呼ぶ。
モデルが複数のデータセットに与える影響を評価し,ドイツ語,フランス語,イタリア語への翻訳を行い,トランスフォーマーと比較して有意義な改善が見られた。
関連論文リスト
- A Frustratingly Easy Improvement for Position Embeddings via Random
Padding [68.75670223005716]
本稿では,既存の事前学習型言語モデルを変更することなく,シンプルかつ効果的なランダムパディング手法を提案する。
実験により、ランダムパディングは、応答が後位置にあるインスタンスのモデル性能を著しく改善できることが示された。
論文 参考訳(メタデータ) (2023-05-08T17:08:14Z) - P-Transformer: Towards Better Document-to-Document Neural Machine
Translation [34.19199123088232]
位置認識変換器(P-Transformer)を提案する。
P-Transformerは、seq2seqベースのDoc2Sentと文間翻訳(Sent2Sent)に適用できる。
論文 参考訳(メタデータ) (2022-12-12T11:19:05Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Position Prediction as an Effective Pretraining Strategy [20.925906203643883]
本稿では,コンテンツからの位置を予測し,位置情報を提供することなく,コンテンツを再構築する手法を提案する。
提案手法は,教師なし/自己教師付き事前学習手法に匹敵する,強い教師付きトレーニングベースラインの改善をもたらす。
論文 参考訳(メタデータ) (2022-07-15T17:10:48Z) - Rewriter-Evaluator Architecture for Neural Machine Translation [17.45780516143211]
ニューラルマシン翻訳(NMT)モデルを改善するための新しいアーキテクチャであるRewriter-Evaluatorを提案する。
それはリライターと評価者で構成されています。
毎回、書き換え者は過去の翻訳を改善するために新しい翻訳を作成し、評価者は翻訳品質を推定し、書き換えプロセスを終了させるかどうかを決定する。
中国語-英語と英語-ドイツ語の2つの翻訳タスクについて広範な実験を行い、提案されたアーキテクチャがNMTモデルのパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2020-12-10T02:21:34Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。