論文の概要: Segatron: Segment-Aware Transformer for Language Modeling and
Understanding
- arxiv url: http://arxiv.org/abs/2004.14996v2
- Date: Tue, 15 Dec 2020 22:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:13:44.289021
- Title: Segatron: Segment-Aware Transformer for Language Modeling and
Understanding
- Title(参考訳): Segatron: 言語モデリングと理解のためのセグメント対応変換器
- Authors: He Bai, Peng Shi, Jimmy Lin, Yuqing Xie, Luchen Tan, Kun Xiong, Wen
Gao and Ming Li
- Abstract要約: 本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
- 参考スコア(独自算出の注目度): 79.84562707201323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are powerful for sequence modeling. Nearly all state-of-the-art
language models and pre-trained language models are based on the Transformer
architecture. However, it distinguishes sequential tokens only with the token
position index. We hypothesize that better contextual representations can be
generated from the Transformer with richer positional information. To verify
this, we propose a segment-aware Transformer (Segatron), by replacing the
original token position encoding with a combined position encoding of
paragraph, sentence, and token. We first introduce the segment-aware mechanism
to Transformer-XL, which is a popular Transformer-based language model with
memory extension and relative position encoding. We find that our method can
further improve the Transformer-XL base model and large model, achieving 17.1
perplexity on the WikiText-103 dataset. We further investigate the pre-training
masked language modeling task with Segatron. Experimental results show that
BERT pre-trained with Segatron (SegaBERT) can outperform BERT with vanilla
Transformer on various NLP tasks, and outperforms RoBERTa on zero-shot sentence
representation learning.
- Abstract(参考訳): トランスフォーマーはシーケンスモデリングに強力です。
ほぼ全ての最先端の言語モデルと事前訓練された言語モデルはTransformerアーキテクチャに基づいている。
しかし、シーケンシャルトークンをトークン位置インデックスのみと区別する。
よりリッチな位置情報を持つトランスフォーマーから、より良い文脈表現を生成できるという仮説を立てる。
これを検証するために,従来のトークン位置エンコーディングを,段落,文,トークンの複合的な位置エンコーディングに置き換えることにより,セグメント対応トランスフォーマ(Segatron)を提案する。
メモリ拡張と相対位置符号化を備えたTransformerベースの言語モデルであるTransformer-XLに,まずセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
我々はsegatronを用いた事前学習マスク言語モデリングタスクについてさらに検討する。
実験の結果,セガトロン(SegaBERT)で事前学習したBERTは,様々なNLPタスクにおいてバニラトランスフォーマーでBERTを上回り,ゼロショット文表現学習ではRoBERTaを上回ることがわかった。
関連論文リスト
- Dependency Transformer Grammars: Integrating Dependency Structures into Transformer Language Models [42.46104516313823]
依存性変換文法(Dependency Transformer Grammars、DTG)は、依存関係ベースの帰納バイアスを持つトランスフォーマー言語モデルの新しいクラスである。
DTGは制約された注意パターンで依存性遷移システムをシミュレートする。
Transformer言語モデルベースラインと同等のパープレキシティを維持しながら、より優れた一般化を実現する。
論文 参考訳(メタデータ) (2024-07-24T16:38:38Z) - Enhanced Transformer Architecture for Natural Language Processing [2.6071653283020915]
Transformerは自然言語処理(NLP)分野における最先端モデルである
本稿では,トランスフォーマーの新たな構造を提案し,全層正規化,重み付け残差接続,強化学習を利用した位置符号化,マスク付き自己注意が特徴である。
The proposed Transformer model, called Enhanced Transformer, is confirmeded by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset。
論文 参考訳(メタデータ) (2023-10-17T01:59:07Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - Transformer over Pre-trained Transformer for Neural Text Segmentation
with Enhanced Topic Coherence [6.73258176462356]
それは、事前訓練されたトランスフォーマーを用いたボトムレベル文エンコーダと、文埋め込みに基づく上位レベルのトランスフォーマーベースのセグメンテーションモデルである。
実験の結果、Transformer$2$は、一般的に使われているセマンティックコヒーレンス尺度によって、最先端のテキストセグメンテーションモデルを超えていることがわかった。
論文 参考訳(メタデータ) (2021-10-14T05:26:39Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。