論文の概要: TransfoRNN: Capturing the Sequential Information in Self-Attention
Representations for Language Modeling
- arxiv url: http://arxiv.org/abs/2104.01572v1
- Date: Sun, 4 Apr 2021 09:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 06:23:30.727212
- Title: TransfoRNN: Capturing the Sequential Information in Self-Attention
Representations for Language Modeling
- Title(参考訳): TransfoRNN:言語モデリングのための自己注意表現におけるシーケンス情報のキャプチャ
- Authors: Tze Yuang Chong, Xuyang Wang, Lin Yang, Junjie Wang
- Abstract要約: 本稿では,TransfoRNNモデルと呼ばれるトランスフォーマーに繰り返し発生するニューラルネットワークをカスケードして,シーケンシャルな情報を取得することを提案する。
浅いTransformersスタックのみで構成されるTransfoRNNモデルは、比較可能な性能を提供するのに十分であることが分かりました。
- 参考スコア(独自算出の注目度): 9.779600950401315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe the use of recurrent neural networks to capture
sequential information from the self-attention representations to improve the
Transformers. Although self-attention mechanism provides a means to exploit
long context, the sequential information, i.e. the arrangement of tokens, is
not explicitly captured. We propose to cascade the recurrent neural networks to
the Transformers, which referred to as the TransfoRNN model, to capture the
sequential information. We found that the TransfoRNN models which consists of
only shallow Transformers stack is suffice to give comparable, if not better,
performance than a deeper Transformer model. Evaluated on the Penn Treebank and
WikiText-2 corpora, the proposed TransfoRNN model has shown lower model
perplexities with fewer number of model parameters. On the Penn Treebank
corpus, the model perplexities were reduced up to 5.5% with the model size
reduced up to 10.5%. On the WikiText-2 corpus, the model perplexity was reduced
up to 2.2% with a 27.7% smaller model. Also, the TransfoRNN model was applied
on the LibriSpeech speech recognition task and has shown comparable results
with the Transformer models.
- Abstract(参考訳): 本稿では,自己照準表現からシーケンシャル情報を取り込んでトランスフォーマーを改善するために,再帰的ニューラルネットワークを用いることについて述べる。
自己認識メカニズムは、長いコンテキスト、すなわちシーケンシャルな情報を利用する手段を提供する。
トークンの配列は 明示的に捕捉されていません
本稿では,TransfoRNNモデルと呼ばれるトランスフォーマーに繰り返し発生するニューラルネットワークをカスケードして,シーケンシャルな情報を取得することを提案する。
浅いトランスフォーマースタックのみからなるトランスフォーンモデルは、より深いトランスフォーマーモデルと同等の性能を与えるには十分であることがわかった。
Penn Treebank と WikiText-2 コーパスで評価した結果,提案した TransfoRNN モデルでは,モデルパラメータの数が少なく,モデルの難易度が低いことがわかった。
ペン・ツリーバンク・コーパスでは、モデルのパープレキシティは5.5%まで減少し、モデルサイズは10.5%まで減少した。
WikiText-2コーパスでは、モデルパープレクシリティが2.2%まで減少し、27.7%の小型モデルとなった。
また、TransfoRNNモデルをLibriSpeech音声認識タスクに適用し、Transformerモデルと同等の結果を示した。
関連論文リスト
- Improving Transformer-based Networks With Locality For Automatic Speaker
Verification [40.06788577864032]
話者埋め込み抽出のためのトランスフォーマーベースアーキテクチャが検討されている。
本研究では,2方向の局所性モデルを用いてトランスフォーマーを改良する。
本稿では,VoxCelebデータセットと大規模Microsoft内部多言語(MS-internal)データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-17T01:04:51Z) - Structured State Space Decoder for Speech Recognition and Synthesis [9.354721572095272]
構造化状態空間モデル(S4)が最近提案され、様々な時系列モデリングタスクに対して有望な結果が得られた。
本研究では,S4 を ASR およびテキスト音声タスクのデコーダとして適用し,トランスフォーマーデコーダと比較した。
ASR タスクでは,提案モデルが 1.88%/4.25% の競合単語誤り率 (WER) を達成することを示す。
論文 参考訳(メタデータ) (2022-10-31T06:54:23Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Attention is All You Need in Speech Separation [12.57578429586883]
音声分離のための新しいRNNフリートランスフォーマーベースニューラルネットワークを提案する。
提案モデルは標準的なWSJ0-2/3mixデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2020-10-25T16:28:54Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。