論文の概要: Focus on the present: a regularization method for the ASR source-target
attention layer
- arxiv url: http://arxiv.org/abs/2011.01210v1
- Date: Mon, 2 Nov 2020 18:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:08:03.256281
- Title: Focus on the present: a regularization method for the ASR source-target
attention layer
- Title(参考訳): 注:asrソースターゲット注意層のための正規化法
- Authors: Nanxin Chen, Piotr \.Zelasko, Jes\'us Villalba, Najim Dehak
- Abstract要約: 本稿では,最先端のエンドツーエンド音声認識モデルにおいて,ソースターゲットの注目度を診断する新しい手法を提案する。
提案手法は,CTCとソースターゲットの双方が同一のエンコーダ表現に作用しているという事実に基づいている。
我々は、ソースターゲットのアテンションヘッドが、現在のトークンよりも先にいくつかのトークンを予測できることを発見した。
- 参考スコア(独自算出の注目度): 45.73441417132897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel method to diagnose the source-target attention
in state-of-the-art end-to-end speech recognition models with joint
connectionist temporal classification (CTC) and attention training. Our method
is based on the fact that both, CTC and source-target attention, are acting on
the same encoder representations. To understand the functionality of the
attention, CTC is applied to compute the token posteriors given the attention
outputs. We found that the source-target attention heads are able to predict
several tokens ahead of the current one. Inspired by the observation, a new
regularization method is proposed which leverages CTC to make source-target
attention more focused on the frames corresponding to the output token being
predicted by the decoder. Experiments reveal stable improvements up to 7\% and
13\% relatively with the proposed regularization on TED-LIUM 2 and LibriSpeech.
- Abstract(参考訳): 本稿では,現在最先端の終末音声認識モデルにおいて,コネクティビスト時間分類(CTC)とアテンショントレーニングを併用した新たな手法を提案する。
提案手法は,CTCとソースターゲットの双方が同一のエンコーダ表現に作用しているという事実に基づいている。
注意機能を理解するために、CTCを適用して、注意出力に応じてトークン後部を計算する。
ソースターゲットのアテンションヘッドは、現在のトークンよりも先にいくつかのトークンを予測できることがわかった。
この観測にインスパイアされた新たな正規化手法が提案され、CTCを利用してデコーダによって予測される出力トークンに対応するフレームにソースターゲットの注意を集中させる。
TED-Lium 2 と LibriSpeech の正則化が提案された場合, 安定な改善率は 7 % と 13 % となる。
関連論文リスト
- Sequential Attention Source Identification Based on Feature
Representation [88.05527934953311]
本稿では,テンポラルシーケンスに基づくグラフ注意源同定(TGASI)と呼ばれるシーケンス・ツー・シーケンス・ベースのローカライズ・フレームワークを提案する。
なお、このインダクティブラーニングのアイデアは、TGASIが他の事前の知識を知らずに新しいシナリオのソースを検出できることを保証する。
論文 参考訳(メタデータ) (2023-06-28T03:00:28Z) - BERT Meets CTC: New Formulation of End-to-End Speech Recognition with
Pre-trained Masked Language Model [40.16332045057132]
BERT-CTCはエンドツーエンド音声認識の新しい定式化である。
BERTコンテキスト埋め込みによって得られる明示的な出力依存性を通じて言語知識を組み込む。
BERT-CTCは、話し方や言語の変化にまたがる従来のアプローチよりも改善されている。
論文 参考訳(メタデータ) (2022-10-29T18:19:44Z) - ATCON: Attention Consistency for Vision Models [0.8312466807725921]
注意マップの整合性を改善する教師なしの微調整法を提案する。
Ablation studyではGrad-CAMおよびIntegrated Gradientsについて検討した。
これらの改良された注意マップは、臨床医が視覚モデル予測をよりよく理解するのに役立ちます。
論文 参考訳(メタデータ) (2022-10-18T09:30:20Z) - Personalization of CTC Speech Recognition Models [15.470660345766445]
本稿では,まず,稀な長尾単語と語彙外単語のリストに対して,エンコーダに注意を向けた2方向アプローチを提案する。
オープンソースVoxPopuliおよび社内医療データセットに対する我々のアプローチを評価し,ドメイン固有のまれな単語に対するF1スコアの60%の改善を示す。
論文 参考訳(メタデータ) (2022-10-18T01:08:21Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning [141.38505371646482]
クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を提供する。
本稿では,双方向の局所通信特性を探索するために,CMAC(Cross-Modal Attention Consistency)というプレテキストタスクを導入する。
CMACは、視覚信号から純粋に発生する局所的注意と、音響信号の誘導の下で発生する対象的注意とを一致させることを目的としている。
論文 参考訳(メタデータ) (2021-06-13T07:41:15Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z) - GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text
Recognition [27.38969404322089]
本稿では,CTCモデルのより優れたアライメントと特徴表現を,より強力な注意指導から学習するCTCモデルの指導的トレーニングを提案する。
ガイド付きトレーニングの利点により、CTCモデルは、通常のシーンテキストと不規則なシーンテキストの両方に対して、堅牢で正確な予測を達成できる。
CTCデコーダの可能性をさらに活用するために,グラフ畳み込みネットワーク(GCN)を提案し,抽出した特徴の局所的相関を学習した。
論文 参考訳(メタデータ) (2020-02-04T13:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。