論文の概要: Transformers: "The End of History" for NLP?
- arxiv url: http://arxiv.org/abs/2105.00813v1
- Date: Fri, 9 Apr 2021 08:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 20:41:40.345423
- Title: Transformers: "The End of History" for NLP?
- Title(参考訳): トランスフォーマー:NLPの「歴史の終わり」?
- Authors: Anton Chernyavskiy, Dmitry Ilvovsky, Preslav Nakov
- Abstract要約: 我々は、事前訓練されたBERTスタイルのモデルのいくつかの重要な理論的制限に光を当てた。
これらの制限に対処することで,vanilla roberta と xlnet に対する大幅な改善が期待できる。
トランスフォーマーアーキテクチャへの将来の追加について、Desiderataに関するより一般的な議論を提供します。
- 参考スコア(独自算出の注目度): 17.36054090232896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in neural architectures, such as the Transformer, coupled
with the emergence of large-scale pre-trained models such as BERT, have
revolutionized the field of Natural Language Processing (NLP), pushing the
state-of-the-art for a number of NLP tasks. A rich family of variations of
these models has been proposed, such as RoBERTa, ALBERT, and XLNet, but
fundamentally, they all remain limited in their ability to model certain kinds
of information, and they cannot cope with certain information sources, which
was easy for pre-existing models. Thus, here we aim to shed some light on some
important theoretical limitations of pre-trained BERT-style models that are
inherent in the general Transformer architecture. First, we demonstrate in
practice on two general types of tasks -- segmentation and segment labeling --
and four datasets that these limitations are indeed harmful and that addressing
them, even in some very simple and naive ways, can yield sizable improvements
over vanilla RoBERTa and XLNet. Then, we offer a more general discussion on
desiderata for future additions to the Transformer architecture that would
increase its expressiveness, which we hope could help in the design of the next
generation of deep NLP architectures.
- Abstract(参考訳): Transformerのようなニューラルアーキテクチャの最近の進歩とBERTのような大規模事前学習モデルの出現は、自然言語処理(NLP)の分野に革命をもたらし、NLPタスクの最先端を推し進めている。
ロベルタ、アルバート、xlnetなど、これらのモデルの豊富なバリエーションが提案されているが、基本的には、それらはいずれも特定の種類の情報をモデル化する能力に制限があり、既存のモデルにとって容易な特定の情報ソースに対応できない。
そこで本研究では,一般的な Transformer アーキテクチャに固有の BERT スタイルのモデルに,いくつかの重要な理論的制約を課すことを目的としている。
まず、セグメンテーションとセグメンテーションラベリングという2つの一般的なタスクと、これらの制限が本当に有害である4つのデータセットについて、非常に単純でナイーブな方法であっても、vanilla robertaとxlnetに対して大きな改善をもたらす可能性があることを実際に実証します。
次に、desiderataについてより一般的な議論を行い、その表現力を高めるトランスフォーマーアーキテクチャへの今後の追加について述べ、次世代の深層nlpアーキテクチャの設計に役立てることを望んでいる。
関連論文リスト
- TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - Converting Transformers to Polynomial Form for Secure Inference Over
Homomorphic Encryption [45.00129952368691]
ホモモルフィック暗号化(HE)は、ディープラーニングにおける最も有望なアプローチの1つである。
変換器を用いたHE上でのセキュアな推論のデモンストレーションとして,第1回変換器を紹介する。
我々のモデルは従来の手法に匹敵する結果をもたらし、同様のスケールのトランスフォーマーで性能ギャップを埋め、最先端のアプリケーションでHEが実現可能であることを裏付ける。
論文 参考訳(メタデータ) (2023-11-15T00:23:58Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - Generalization in NLI: Ways (Not) To Go Beyond Simple Heuristics [78.6177778161625]
BERTアーキテクチャにおけるNLIの一般化のケーススタディを行う。
2つの成功と3つの失敗戦略を報告し、いずれもTransformerベースのモデルがどのように一般化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2021-10-04T15:37:07Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Updater-Extractor Architecture for Inductive World State Representations [0.0]
トランスベースのUpdater-Extractorアーキテクチャと任意の長さのシーケンスで動作するトレーニング手順を提案する。
入ってくる情報をその世界状態表現に組み込むようにモデルを明確に訓練します。
実証的には、3つの異なるタスクでモデルのパフォーマンスを調査し、その約束を示しています。
論文 参考訳(メタデータ) (2021-04-12T14:30:11Z) - E.T.: Entity-Transformers. Coreference augmented Neural Language Model
for richer mention representations via Entity-Transformer blocks [3.42658286826597]
本稿では,ニューラルネットワークモデル,特にGPT2におけるTransformer-blockアーキテクチャの拡張について述べる。
我々のモデルであるGPT2Eは、GPT2のトランスフォーマー層アーキテクチャをEntity-Transformersに拡張しています。
論文 参考訳(メタデータ) (2020-11-10T22:28:00Z) - Compression of Deep Learning Models for Text: A Survey [6.532867867011488]
近年,自然言語処理 (NLP) や情報検索 (IR) の分野では大きな進歩を遂げている。
Recurrent Neural Networks (RNN)、Gated Recurrent Units (GRUs)、Long Short-Term Memory (LSTMs)networks、Transformer [120]などのディープラーニングモデル(BERT) [24]、Generative Pre-training Transformer (GPT-2) [94]、Multi-task Deep Neural Network (MT-DNN) [73]、Extra-Long Network (XLNet) [134]、Text-to-text Transferなど)。
論文 参考訳(メタデータ) (2020-08-12T10:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。