論文の概要: When Can Self-Attention Be Replaced by Feed Forward Layers?
- arxiv url: http://arxiv.org/abs/2005.13895v1
- Date: Thu, 28 May 2020 10:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 05:47:34.148223
- Title: When Can Self-Attention Be Replaced by Feed Forward Layers?
- Title(参考訳): フィードフォワード層による自己意識の置き換えはいつ可能か?
- Authors: Shucong Zhang, Erfan Loweimi, Peter Bell, Steve Renals
- Abstract要約: エンコーダ上の自己注意層をフィードフォワード層に置き換えると、パフォーマンスが低下せず、多少の利益も得られません。
我々の実験は、自己注意層が音声信号をどのように処理するかについての洞察を提供する。
- 参考スコア(独自算出の注目度): 40.991809705930955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, self-attention models such as Transformers have given competitive
results compared to recurrent neural network systems in speech recognition. The
key factor for the outstanding performance of self-attention models is their
ability to capture temporal relationships without being limited by the distance
between two related events. However, we note that the range of the learned
context progressively increases from the lower to upper self-attention layers,
whilst acoustic events often happen within short time spans in a left-to-right
order. This leads to a question: for speech recognition, is a global view of
the entire sequence still important for the upper self-attention layers in the
encoder of Transformers? To investigate this, we replace these self-attention
layers with feed forward layers. In our speech recognition experiments (Wall
Street Journal and Switchboard), we indeed observe an interesting result:
replacing the upper self-attention layers in the encoder with feed forward
layers leads to no performance drop, and even minor gains. Our experiments
offer insights to how self-attention layers process the speech signal, leading
to the conclusion that the lower self-attention layers of the encoder encode a
sufficiently wide range of inputs, hence learning further contextual
information in the upper layers is unnecessary.
- Abstract(参考訳): 近年,トランスフォーマーなどの自己着脱モデルが,音声認識における再帰ニューラルネットワークシステムと比較して競争的な結果をもたらしている。
自己注意モデルの卓越した性能の鍵となる要素は、2つの関連する事象間の距離に制限されることなく時間的関係を捉える能力である。
しかし,学習コンテキストの範囲は下層から上層へと徐々に拡大する一方,音響事象は左から右の順序で短時間に発生することが多いことに留意する。
音声認識では、トランスフォーマーのエンコーダの上位自己注意層において、シーケンス全体のグローバルビューが依然として重要であるか?
これを調べるために、これらの自己注意層をフィードフォワード層に置き換える。
音声認識実験(Wall Street Journal と Switchboard)では,エンコーダ上の自己注意層をフィードフォワード層に置き換えることで,パフォーマンスが低下せず,多少の利益も得られない,という興味深い結果が得られた。
実験では, 音声信号の自己注意層がどのように処理するかの知見が得られ, エンコーダの下位の自己意識層は十分な範囲の入力を符号化し, 上層での文脈情報を学習する必要がないという結論に至った。
関連論文リスト
- Investigating the 'Autoencoder Behavior' in Speech Self-Supervised Models: a focus on HuBERT's Pretraining [0.7723409004662979]
学習したモデルのすべてのレイヤを微調整すると、トップレイヤのリセットよりもパフォーマンスが低下します。
プレトレーニング中のモデル内の高レベル情報の進化について検討する。
論文 参考訳(メタデータ) (2024-05-14T07:55:37Z) - Scan and Snap: Understanding Training Dynamics and Token Composition in
1-layer Transformer [37.37547759817417]
トランスフォーマーアーキテクチャは、複数の研究領域で顕著な性能を示している。
我々は、次のトークン予測タスクのためのSGDトレーニングダイナミクスを解析する。
自己注意が自己識別型スキャンアルゴリズムとして機能することを証明する。
論文 参考訳(メタデータ) (2023-05-25T15:59:13Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Self-supervised Rewiring of Pre-trained Speech Encoders: Towards Faster
Fine-tuning with Less Labels in Speech Processing [66.92823764664206]
我々は、事前訓練された音声エンコーダを精査し、タスク固有のラベルを必要とせず、その表現空間を再構成する。
6つの音声処理タスクに関する実験では,タスクの微調整と一貫したタスク改善の間に顕著な収束速度が得られた。
論文 参考訳(メタデータ) (2022-10-24T08:27:09Z) - On the Usefulness of Self-Attention for Automatic Speech Recognition
with Transformers [40.991809705930955]
我々はウォールストリートジャーナルとスイッチボードで、より低い自己注意/フィードフォワード層エンコーダを持つモデルを訓練する。
ベースライン変圧器と比較して、性能低下はなく、小さな利得が観察される。
上位エンコーダ層をトレーニングする上で,グローバルな視点は不要である,と結論付けている。
論文 参考訳(メタデータ) (2020-11-08T16:01:38Z) - Self-Attention Generative Adversarial Network for Speech Enhancement [37.14341228976058]
音声強調のための既存のGAN(Generative Adversarial Network)は、畳み込み操作のみに依存している。
音声強調GANの畳み込み層, 畳み込み層, 畳み込み層, 畳み込み層と、非局所的な注意から適応した自己注意層を提案する。
実験の結果,SEGANに自己注意を導入することで,改善性能の客観的評価指標が一貫した改善につながることが示された。
論文 参考訳(メタデータ) (2020-10-18T22:59:07Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。