論文の概要: Exploring Transformers in Natural Language Generation: GPT, BERT, and
XLNet
- arxiv url: http://arxiv.org/abs/2102.08036v1
- Date: Tue, 16 Feb 2021 09:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:19:44.415318
- Title: Exploring Transformers in Natural Language Generation: GPT, BERT, and
XLNet
- Title(参考訳): 自然言語生成におけるトランスフォーマーの探索 - GPT, BERT, XLNet
- Authors: M. Onat Topal, Anil Bas, Imke van Heerden
- Abstract要約: 近年,自然言語生成(nlg)における注意機構の増大とトランスフォーマーの台頭がみられている。
本稿では,GPT,BERT,XLNetの3つのトランスフォーマーモデルについて検討する。
詩の生成から要約まで、テキスト生成はトランスフォーマーベースの言語モデルが画期的な結果をもたらすため、利益をもたらす。
- 参考スコア(独自算出の注目度): 1.8047694351309207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a proliferation of attention mechanisms and the rise
of Transformers in Natural Language Generation (NLG). Previously,
state-of-the-art NLG architectures such as RNN and LSTM ran into vanishing
gradient problems; as sentences grew larger, distance between positions
remained linear, and sequential computation hindered parallelization since
sentences were processed word by word. Transformers usher in a new era. In this
paper, we explore three major Transformer-based models, namely GPT, BERT, and
XLNet, that carry significant implications for the field. NLG is a burgeoning
area that is now bolstered with rapid developments in attention mechanisms.
From poetry generation to summarization, text generation derives benefit as
Transformer-based language models achieve groundbreaking results.
- Abstract(参考訳): 近年、注意メカニズムの急増と自然言語生成(NLG)におけるトランスフォーマーの台頭が見られます。
従来, RNN や LSTM といった最先端の NLG アーキテクチャは, 文が大きくなるにつれて, 位置間の距離が線形であり, 文が単語によって処理されるため, 並列化を妨げていた。
トランスフォーマーは新しい時代を迎えます。
本稿では、GPT、BERT、XLNetという3つの主要なトランスフォーマーベースのモデルについて検討する。
NLGは急成長する地域であり、注目のメカニズムが急速に発達している。
詩の生成から要約まで、テキスト生成はトランスフォーマーベースの言語モデルが画期的な結果をもたらすため、利益をもたらす。
関連論文リスト
- Transformers meet Neural Algorithmic Reasoners [16.5785372289558]
我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-13T16:42:06Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Anatomy of Neural Language Models [0.0]
トランスフォーマーベースの言語モデル(LM)は、幅広い応用において新しい最先端の結果をもたらしている。
言語モデリングのようなタスクで事前訓練されたトランスフォーマーは、コンピュータビジョンや時系列アプリケーションで広く採用されている。
論文 参考訳(メタデータ) (2024-01-08T10:27:25Z) - Comparing Generalization in Learning with Limited Numbers of Exemplars:
Transformer vs. RNN in Attractor Dynamics [3.5353632767823497]
広く認識されている大規模言語モデル(LLM)であるChatGPTは、最近、パフォーマンスのスケーリングに関して大きな注目を集めている。
これにより、TransformerのGIL(Generalization-in-learning)能力に関する重要な疑問が提起される。
我々はTransformerのGIL機能と従来のリカレントニューラルネットワーク(RNN)の機能を比較する。
論文 参考訳(メタデータ) (2023-11-15T00:37:49Z) - Attention Is Not All You Need Anymore [3.9693969407364427]
本稿では,トランスフォーマーの自己保持機構に対するドロップイン置換のファミリを提案する。
実験結果から,自己保持機構をSHEに置き換えることによってトランスフォーマーの性能が向上することが示唆された。
提案されたエクストラクターは、自己保持機構よりも速く走ることができる。
論文 参考訳(メタデータ) (2023-08-15T09:24:38Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Leveraging Pre-trained Models for Failure Analysis Triplets Generation [0.0]
我々は、故障解析トリプレット(FAT)を生成する下流タスクにおいて、トランスフォーマーモデルのような事前訓練された因果言語モデルの注意機構を活用する。
生成事前学習型変換器2(GPT2)は、故障解析三重項生成(FATG)タスクにおいて、他の変換器モデルよりも優れていた。
特に, GPT2(1.5Bパラメータで学習)は, ROUGEにおいて, トレーニング済みBERT, BART, GPT3よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-31T17:21:15Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。