論文の概要: Capturing Multi-Resolution Context by Dilated Self-Attention
- arxiv url: http://arxiv.org/abs/2104.02858v1
- Date: Wed, 7 Apr 2021 02:04:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:32:56.805496
- Title: Capturing Multi-Resolution Context by Dilated Self-Attention
- Title(参考訳): 拡張自己認識によるマルチリゾリューションコンテキストのキャプチャ
- Authors: Niko Moritz, Takaaki Hori, Jonathan Le Roux
- Abstract要約: 限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
- 参考スコア(独自算出の注目度): 58.69803243323346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention has become an important and widely used neural network
component that helped to establish new state-of-the-art results for various
applications, such as machine translation and automatic speech recognition
(ASR). However, the computational complexity of self-attention grows
quadratically with the input sequence length. This can be particularly
problematic for applications such as ASR, where an input sequence generated
from an utterance can be relatively long. In this work, we propose a
combination of restricted self-attention and a dilation mechanism, which we
refer to as dilated self-attention. The restricted self-attention allows
attention to neighboring frames of the query at a high resolution, and the
dilation mechanism summarizes distant information to allow attending to it with
a lower resolution. Different methods for summarizing distant frames are
studied, such as subsampling, mean-pooling, and attention-based pooling. ASR
results demonstrate substantial improvements compared to restricted
self-attention alone, achieving similar results compared to full-sequence based
self-attention with a fraction of the computational costs.
- Abstract(参考訳): 自己認識は、機械翻訳や自動音声認識(ASR)など、さまざまなアプリケーションのための新しい最先端の結果を確立するのに役立った、重要かつ広く使用されているニューラルネットワークコンポーネントとなった。
しかし、自己アテンションの計算複雑性は入力シーケンス長と二次的に増大する。
これはasrのようなアプリケーションでは特に問題となり、発話から生成された入力シーケンスは比較的長い可能性がある。
本研究では,制限付き自己意図と拡張型自己意図(Dilated self-attention)という拡張メカニズムの組み合わせを提案する。
制限された自己アテンションにより、クエリの隣接するフレームに高い解像度で注意を向けることができ、拡張機構は遠方の情報を要約し、より低い解像度でそれに参加することができる。
サブサンプリング,平均プール,アテンションベースプールなど,遠隔フレームを要約するさまざまな手法が研究されている。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
関連論文リスト
- Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。
実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-11-22T23:38:10Z) - Adaptive Sparse and Monotonic Attention for Transformer-based Automatic
Speech Recognition [32.45255303465946]
本稿では,Transformer ベースの ASR にスパースアテンションとモノトニックアテンションを導入する。
提案手法は,広く使用されている音声認識のベンチマークにおいて,注意機構を効果的に改善できることを示す。
論文 参考訳(メタデータ) (2022-09-30T01:55:57Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。