論文の概要: Enhanced Transformer Architecture for Natural Language Processing
- arxiv url: http://arxiv.org/abs/2310.10930v1
- Date: Tue, 17 Oct 2023 01:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:01:39.283432
- Title: Enhanced Transformer Architecture for Natural Language Processing
- Title(参考訳): 自然言語処理のための拡張トランスアーキテクチャ
- Authors: Woohyeon Moon, Taeyoung Kim, Bumgeun Park and Dongsoo Har
- Abstract要約: Transformerは自然言語処理(NLP)分野における最先端モデルである
本稿では,トランスフォーマーの新たな構造を提案し,全層正規化,重み付け残差接続,強化学習を利用した位置符号化,マスク付き自己注意が特徴である。
The proposed Transformer model, called Enhanced Transformer, is confirmeded by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset。
- 参考スコア(独自算出の注目度): 2.6071653283020915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer is a state-of-the-art model in the field of natural language
processing (NLP). Current NLP models primarily increase the number of
transformers to improve processing performance. However, this technique
requires a lot of training resources such as computing capacity. In this paper,
a novel structure of Transformer is proposed. It is featured by full layer
normalization, weighted residual connection, positional encoding exploiting
reinforcement learning, and zero masked self-attention. The proposed
Transformer model, which is called Enhanced Transformer, is validated by the
bilingual evaluation understudy (BLEU) score obtained with the Multi30k
translation dataset. As a result, the Enhanced Transformer achieves 202.96%
higher BLEU score as compared to the original transformer with the translation
dataset.
- Abstract(参考訳): Transformerは自然言語処理(NLP)分野における最先端のモデルである。
現在のNLPモデルは、主に処理性能を改善するためにトランスフォーマーの数を増やす。
しかし、この技術は計算能力などの多くのトレーニングリソースを必要とする。
本稿では,変圧器の新しい構造を提案する。
全層正規化、重み付き残差接続、強化学習を利用した位置符号化、マスク付きセルフアテンションが特徴である。
提案するトランスフォーマーモデル(enhanced transformer)は,マルチ30kの翻訳データセットで得られた2言語評価アンダースタディ(bleu)スコアによって検証される。
その結果、変換データセットを持つ元のトランスに比べて202.96%高いbleuスコアが得られる。
関連論文リスト
- Quick Back-Translation for Unsupervised Machine Translation [9.51657235413336]
我々は Transformer back-translation: Quick Back-translation (QBT) に対する2対1の改善を提案する。
QBTは、エンコーダを生成モデルとして再使用し、エンコーダ生成シーケンスを使用してデコーダを訓練する。
様々なWMTベンチマーク実験により、QBTはトレーニング効率の点で標準逆翻訳法よりも劇的に優れていることが示された。
論文 参考訳(メタデータ) (2023-12-01T20:27:42Z) - Foundation Transformers [105.06915886136524]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。
本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文 参考訳(メタデータ) (2022-10-12T17:16:27Z) - Transformer-F: A Transformer network with effective methods for learning
universal sentence representation [8.225067988604351]
Transformerモデルは、自然言語処理で文表現に広く使われている。
本稿では,トランスフォーマーの性能向上のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-07-02T03:20:11Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Optimizing Transformer for Low-Resource Neural Machine Translation [4.802292434636455]
低リソース言語としても知られる、限られた並列データを持つ言語ペアは、ニューラルマシン翻訳の課題である。
IWSLT14トレーニングデータの異なるサブセットに対する実験により,低リソース条件下でのTransformerの有効性がハイパーパラメータ設定に大きく依存していることが判明した。
低リソース条件に最適化されたTransformerを使用することで、Transformerのデフォルト設定に比べて、変換品質は7.3 BLEUポイントまで向上する。
論文 参考訳(メタデータ) (2020-11-04T13:12:29Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z) - Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。
BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。
計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文 参考訳(メタデータ) (2020-02-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。