論文の概要: E.T.: Entity-Transformers. Coreference augmented Neural Language Model
for richer mention representations via Entity-Transformer blocks
- arxiv url: http://arxiv.org/abs/2011.05431v1
- Date: Tue, 10 Nov 2020 22:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:38:52.138381
- Title: E.T.: Entity-Transformers. Coreference augmented Neural Language Model
for richer mention representations via Entity-Transformer blocks
- Title(参考訳): E.T.: Entity-Transformers。
Entity-Transformerブロックによるよりリッチな参照表現のための参照強化ニューラルネットワークモデル
- Authors: Nikolaos Stylianou, Ioannis Vlahavas
- Abstract要約: 本稿では,ニューラルネットワークモデル,特にGPT2におけるTransformer-blockアーキテクチャの拡張について述べる。
我々のモデルであるGPT2Eは、GPT2のトランスフォーマー層アーキテクチャをEntity-Transformersに拡張しています。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last decade, the field of Neural Language Modelling has witnessed
enormous changes, with the development of novel models through the use of
Transformer architectures. However, even these models struggle to model long
sequences due to memory constraints and increasing computational complexity.
Coreference annotations over the training data can provide context far beyond
the modelling limitations of such language models. In this paper we present an
extension over the Transformer-block architecture used in neural language
models, specifically in GPT2, in order to incorporate entity annotations during
training. Our model, GPT2E, extends the Transformer layers architecture of GPT2
to Entity-Transformers, an architecture designed to handle coreference
information when present. To that end, we achieve richer representations for
entity mentions, with insignificant training cost. We show the comparative
model performance between GPT2 and GPT2E in terms of Perplexity on the CoNLL
2012 and LAMBADA datasets as well as the key differences in the entity
representations and their effects in downstream tasks such as Named Entity
Recognition. Furthermore, our approach can be adopted by the majority of
Transformer-based language models.
- Abstract(参考訳): 過去10年間、ニューラル言語モデリングの分野は、トランスフォーマーアーキテクチャを使った新しいモデルの開発によって、大きな変化を目にしてきた。
しかし、これらのモデルでさえ、メモリの制約と計算複雑性の増大のために長いシーケンスをモデル化するのに苦労している。
トレーニングデータに対する参照アノテーションは、そのような言語モデルのモデリング制限を超えてコンテキストを提供することができる。
本稿では、トレーニング中にエンティティアノテーションを組み込むために、ニューラルネットワークモデル、特にgpt2で使用されるトランスフォーマーブロックアーキテクチャの拡張を提案する。
我々のモデルであるGPT2Eは、GPT2のトランスフォーマー層アーキテクチャをEntity-Transformersに拡張しています。
そのために,エンティティの言及をよりリッチに表現し,トレーニングに要するコストを抑える。
CoNLL 2012 と LAMBADA データセットのパープレキシティの点から GPT2 と GPT2E の比較モデル性能を示すとともに,エンティティ表現における重要な違いと,名前付きエンティティ認識のような下流タスクにおけるそれらの効果を示す。
さらに,本手法はTransformerベースの言語モデルの大部分に採用することができる。
関連論文リスト
- Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - Deep Learning Transformer Architecture for Named Entity Recognition on
Low Resourced Languages: State of the art results [0.0]
本稿では,低リソースの南アフリカ(SA)言語10言語を対象とした,NERのためのディープラーニング(DL)トランスフォーマーアーキテクチャモデルの評価について報告する。
その結果,言語毎に離散的な微調整パラメータを適用すると,トランスフォーマーモデルの性能が著しく向上することがわかった。
さらなる研究は、他の自然言語処理タスクやアプリケーション上で、より最近のトランスフォーマーアーキテクチャモデルを評価する可能性がある。
論文 参考訳(メタデータ) (2021-11-01T11:02:01Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。