論文の概要: Regularizing Transformers With Deep Probabilistic Layers
- arxiv url: http://arxiv.org/abs/2108.10764v1
- Date: Mon, 23 Aug 2021 10:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 01:13:34.059132
- Title: Regularizing Transformers With Deep Probabilistic Layers
- Title(参考訳): 深い確率層を有する変圧器の正則化
- Authors: Aurora Cobo Aguilera, Pablo Mart\'inez Olmos, Antonio
Art\'es-Rodr\'iguez, Fernando P\'erez-Cruz
- Abstract要約: 本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LM) have grown with non-stop in the last decade, from
sequence-to-sequence architectures to the state-of-the-art and utter
attention-based Transformers. In this work, we demonstrate how the inclusion of
deep generative models within BERT can bring more versatile models, able to
impute missing/noisy words with richer text or even improve BLEU score. More
precisely, we use a Gaussian Mixture Variational Autoencoder (GMVAE) as a
regularizer layer and prove its effectiveness not only in Transformers but also
in the most relevant encoder-decoder based LM, seq2seq with and without
attention.
- Abstract(参考訳): 言語モデル(lm)は過去10年間でノンストップで成長し、シーケンシャル・ツー・シーケンス・アーキテクチャから最先端の注意に基づくトランスフォーマーまで成長してきた。
本研究では,BERT に深層生成モデルを組み込むことによって,より汎用的なモデルが実現し,よりリッチなテキストで欠落した/騒々しい単語を暗示したり,BLEU スコアを向上したりすることができることを示す。
より正確には、正規化層としてGaussian Mixture Variational Autoencoder (GMVAE)を使用し、トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダであるLM, seq2seqでも、注意なくその効果を証明している。
関連論文リスト
- MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文 参考訳(メタデータ) (2024-03-14T17:59:14Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - GIVT: Generative Infinite-Vocabulary Transformers [18.55070896912795]
実数値エントリを持つベクトル列を生成するGIVT(Generative Infinite-Vocabulary Transformers)を導入する。
VQ-GANとMaskGITの画像生成パラダイムにインスパイアされた私たちは、GIVTを使って、$beta$-VAEの未定量実数値列をモデル化する。
クラス条件画像生成におけるGIVTは、VQ-GANやMaskGITよりも優れ、近年の潜伏拡散モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-12-04T18:48:02Z) - Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Closing the gap: Exact maximum likelihood training of generative
autoencoders using invertible layers [7.76925617801895]
VAE方式のオートエンコーダは非可逆層を用いて構築可能であることを示す。
これは、エンコーダ、デコーダ、および以前のアーキテクチャの選択において完全な自由を残しながら達成される。
この手法は,ログライクリフ,サンプル品質,デノーミング性能の観点から,アーキテクチャ的に等価なVAEよりも著しく高い性能を示す。
論文 参考訳(メタデータ) (2022-05-19T13:16:09Z) - Hierarchical RNNs-Based Transformers MADDPG for Mixed
Cooperative-Competitive Environments [1.9241821314180374]
本稿では,RNN をベースとした階層変換器 MADDPG を提案し,階層変換器 HRTMADDPG と呼ぶ。
RNNに基づく低レベルエンコーダで構成され、各タイムシーケンスで複数のステップサイズをエンコードし、また、複数のシーケンス間の相関を学習するためのトランスフォーマーに基づく上位シーケンスレベルのエンコーダで構成されています。
論文 参考訳(メタデータ) (2021-05-11T09:22:52Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。