論文の概要: Enhancing Monotonic Multihead Attention for Streaming ASR
- arxiv url: http://arxiv.org/abs/2005.09394v3
- Date: Wed, 30 Sep 2020 12:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:30:53.963974
- Title: Enhancing Monotonic Multihead Attention for Streaming ASR
- Title(参考訳): ストリーミングASRのためのモノトニックマルチヘッドアテンションの強化
- Authors: Hirofumi Inaguma, Masato Mimura, Tatsuya Kawahara
- Abstract要約: 変圧器を用いた自動音声認識(ASR)へのハードモノトニック・アテンションの拡張によるモノトニック・マルチヘッド・アテンション(MMA)の検討
ストリーミング推論では、すべてのモノトニックアテンション(MA)ヘッドは、すべてのヘッドが対応するトークン境界を検出するまで次のトークンが生成されないため、適切なアライメントを学習する必要がある。
- 参考スコア(独自算出の注目度): 43.0382262234792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a monotonic multihead attention (MMA) by extending hard
monotonic attention to Transformer-based automatic speech recognition (ASR) for
online streaming applications. For streaming inference, all monotonic attention
(MA) heads should learn proper alignments because the next token is not
generated until all heads detect the corresponding token boundaries. However,
we found not all MA heads learn alignments with a na\"ive implementation. To
encourage every head to learn alignments properly, we propose HeadDrop
regularization by masking out a part of heads stochastically during training.
Furthermore, we propose to prune redundant heads to improve consensus among
heads for boundary detection and prevent delayed token generation caused by
such heads. Chunkwise attention on each MA head is extended to the multihead
counterpart. Finally, we propose head-synchronous beam search decoding to
guarantee stable streaming inference.
- Abstract(参考訳): オンラインストリーミングアプリケーションを対象としたトランスフォーマーに基づく自動音声認識(ASR)にハード・モノトニック・アテンションを拡張してモノトニック・マルチヘッド・アテンション(MMA)を検討する。
ストリーミング推論では、すべてのモノトニックアテンション(MA)ヘッドは、すべてのヘッドが対応するトークン境界を検出するまで次のトークンが生成されないため、適切なアライメントを学習する必要がある。
しかし、すべてのMAヘッドが na\ な実装でアライメントを学ぶわけではない。
各頭がアライメントを適切に学習するように促すため,訓練中に頭部の一部を確率的にマスキングすることで,ヘッドドロップ正規化を提案する。
さらに,境界検出のためのヘッド間のコンセンサスを改善し,そのヘッドによる遅延トークン発生を防止するため,冗長ヘッドをプルーピングする手法を提案する。
各MAヘッドに対するチャンクワイズアテンションは、マルチヘッド相手に拡張される。
最後に、安定なストリーミング推論を保証するために、ヘッド同期ビームサーチデコーディングを提案する。
関連論文リスト
- The Conformer Encoder May Reverse the Time Dimension [53.9351497436903]
我々はデコーダのクロスアテンション機構の初期動作を分析し、コンバータエンコーダの自己アテンションが初期フレームと他のすべての情報フレームとの接続を構築することを奨励することを発見した。
本稿では,このフリップを回避する方法とアイデアを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:39:05Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [60.08319512840091]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は,野生頭部のアスペクト比不変収穫が,それまでのランドマークベースのアフィンアライメントよりも優れているという観測に基づいている。
実験とアブレーション研究は、SemiUHPEが既存の手法を公開ベンチマークで大きく上回っていることを示している。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z) - MFR-Net: Multi-faceted Responsive Listening Head Generation via
Denoising Diffusion Model [14.220727407255966]
応答型リスニングヘッド生成は,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。
我々は,textbfMulti-textbfFaceted textbfResponsive Listening Head Generation Network (MFR-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-31T11:10:28Z) - DisCoHead: Audio-and-Video-Driven Talking Head Generation by
Disentangled Control of Head Pose and Facial Expressions [21.064765388027727]
DisCoHeadは、ヘッドポーズと顔の表情を監督なしで切り離し、制御する新しい方法である。
DisCoHeadは、リアルな音声およびビデオ駆動音声ヘッドを生成し、最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-03-14T08:22:18Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - Analysis of Self-Attention Head Diversity for Conformer-based Automatic
Speech Recognition [36.53453860656191]
頭部の多様性を高めるためのアプローチについて検討する。
トレーニング中に多様性を促進させる補助的損失関数を導入することは、より効果的なアプローチであることを示す。
最後に,アテンションヘッドの多様性と,頭部パラメータの勾配の類似性とを関連づける。
論文 参考訳(メタデータ) (2022-09-13T15:50:03Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Mutually-Constrained Monotonic Multihead Attention for Online ASR [27.215800308343322]
モノトニックマルチヘッドアテンション(MMA)は、機械翻訳および自動音声認識タスクにおける最先端のオフライン手法に匹敵するパフォーマンスを示します。
本稿では,ヘッド同期ビームサーチデコーディングなど,推論時間におけるテスト遅延を低減する手法を提案する。
提案手法は,ASRの2つの標準ベンチマークデータセット上で検証し,トレーニング段階から相互に制約された頭部を持つMMAがベースラインよりも優れた性能を提供することを示す。
論文 参考訳(メタデータ) (2021-03-26T07:33:25Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。