論文の概要: Focus on the present: a regularization method for the ASR source-target
attention layer
- arxiv url: http://arxiv.org/abs/2011.01210v1
- Date: Mon, 2 Nov 2020 18:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:08:03.256281
- Title: Focus on the present: a regularization method for the ASR source-target
attention layer
- Title(参考訳): 注:asrソースターゲット注意層のための正規化法
- Authors: Nanxin Chen, Piotr \.Zelasko, Jes\'us Villalba, Najim Dehak
- Abstract要約: 本稿では,最先端のエンドツーエンド音声認識モデルにおいて,ソースターゲットの注目度を診断する新しい手法を提案する。
提案手法は,CTCとソースターゲットの双方が同一のエンコーダ表現に作用しているという事実に基づいている。
我々は、ソースターゲットのアテンションヘッドが、現在のトークンよりも先にいくつかのトークンを予測できることを発見した。
- 参考スコア(独自算出の注目度): 45.73441417132897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel method to diagnose the source-target attention
in state-of-the-art end-to-end speech recognition models with joint
connectionist temporal classification (CTC) and attention training. Our method
is based on the fact that both, CTC and source-target attention, are acting on
the same encoder representations. To understand the functionality of the
attention, CTC is applied to compute the token posteriors given the attention
outputs. We found that the source-target attention heads are able to predict
several tokens ahead of the current one. Inspired by the observation, a new
regularization method is proposed which leverages CTC to make source-target
attention more focused on the frames corresponding to the output token being
predicted by the decoder. Experiments reveal stable improvements up to 7\% and
13\% relatively with the proposed regularization on TED-LIUM 2 and LibriSpeech.
- Abstract(参考訳): 本稿では,現在最先端の終末音声認識モデルにおいて,コネクティビスト時間分類(CTC)とアテンショントレーニングを併用した新たな手法を提案する。
提案手法は,CTCとソースターゲットの双方が同一のエンコーダ表現に作用しているという事実に基づいている。
注意機能を理解するために、CTCを適用して、注意出力に応じてトークン後部を計算する。
ソースターゲットのアテンションヘッドは、現在のトークンよりも先にいくつかのトークンを予測できることがわかった。
この観測にインスパイアされた新たな正規化手法が提案され、CTCを利用してデコーダによって予測される出力トークンに対応するフレームにソースターゲットの注意を集中させる。
TED-Lium 2 と LibriSpeech の正則化が提案された場合, 安定な改善率は 7 % と 13 % となる。
関連論文リスト
- AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。
部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。
提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
本稿では,2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムに匹敵する技術結果が得られることで、CTCの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Sequential Attention Source Identification Based on Feature
Representation [88.05527934953311]
本稿では,テンポラルシーケンスに基づくグラフ注意源同定(TGASI)と呼ばれるシーケンス・ツー・シーケンス・ベースのローカライズ・フレームワークを提案する。
なお、このインダクティブラーニングのアイデアは、TGASIが他の事前の知識を知らずに新しいシナリオのソースを検出できることを保証する。
論文 参考訳(メタデータ) (2023-06-28T03:00:28Z) - ATCON: Attention Consistency for Vision Models [0.8312466807725921]
注意マップの整合性を改善する教師なしの微調整法を提案する。
Ablation studyではGrad-CAMおよびIntegrated Gradientsについて検討した。
これらの改良された注意マップは、臨床医が視覚モデル予測をよりよく理解するのに役立ちます。
論文 参考訳(メタデータ) (2022-10-18T09:30:20Z) - Personalization of CTC Speech Recognition Models [15.470660345766445]
本稿では,まず,稀な長尾単語と語彙外単語のリストに対して,エンコーダに注意を向けた2方向アプローチを提案する。
オープンソースVoxPopuliおよび社内医療データセットに対する我々のアプローチを評価し,ドメイン固有のまれな単語に対するF1スコアの60%の改善を示す。
論文 参考訳(メタデータ) (2022-10-18T01:08:21Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning [141.38505371646482]
クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を提供する。
本稿では,双方向の局所通信特性を探索するために,CMAC(Cross-Modal Attention Consistency)というプレテキストタスクを導入する。
CMACは、視覚信号から純粋に発生する局所的注意と、音響信号の誘導の下で発生する対象的注意とを一致させることを目的としている。
論文 参考訳(メタデータ) (2021-06-13T07:41:15Z) - GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text
Recognition [27.38969404322089]
本稿では,CTCモデルのより優れたアライメントと特徴表現を,より強力な注意指導から学習するCTCモデルの指導的トレーニングを提案する。
ガイド付きトレーニングの利点により、CTCモデルは、通常のシーンテキストと不規則なシーンテキストの両方に対して、堅牢で正確な予測を達成できる。
CTCデコーダの可能性をさらに活用するために,グラフ畳み込みネットワーク(GCN)を提案し,抽出した特徴の局所的相関を学習した。
論文 参考訳(メタデータ) (2020-02-04T13:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。