論文の概要: Variable Attention Masking for Configurable Transformer Transducer
Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.01438v1
- Date: Wed, 2 Nov 2022 19:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:52:49.797825
- Title: Variable Attention Masking for Configurable Transformer Transducer
Speech Recognition
- Title(参考訳): 構成可能なトランスデューサ音声認識のための可変注意マスキング
- Authors: Pawel Swietojanski, Stefan Braun, Dogan Can, Thiago Fraga da Silva,
Arnab Ghoshal, Takaaki Hori, Roger Hsiao, Henry Mason, Erik McDermott, Honza
Silovsky, Ruchir Travadi, Xiaodan Zhuang
- Abstract要約: 本研究では,トランスデューサを用いた音声認識におけるアテンションマスキングの活用について検討する。
チャンクマスキングは固定マスキングに比べて,遅延トレードオフよりも精度がよいことを示す。
また,音響再構成シナリオにおいて,可変マスキングにより最大8%の精度で精度が向上することを示した。
- 参考スコア(独自算出の注目度): 23.546294634238677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the use of attention masking in transformer transducer
based speech recognition for building a single configurable model for different
deployment scenarios. We present a comprehensive set of experiments comparing
fixed masking, where the same attention mask is applied at every frame, with
chunked masking, where the attention mask for each frame is determined by chunk
boundaries, in terms of recognition accuracy and latency. We then explore the
use of variable masking, where the attention masks are sampled from a target
distribution at training time, to build models that can work in different
configurations. Finally, we investigate how a single configurable model can be
used to perform both first pass streaming recognition and second pass acoustic
rescoring. Experiments show that chunked masking achieves a better accuracy vs
latency trade-off compared to fixed masking, both with and without FastEmit. We
also show that variable masking improves the accuracy by up to 8% relative in
the acoustic re-scoring scenario.
- Abstract(参考訳): 本研究は,トランスデューサを用いた音声認識におけるアテンションマスキングを用いて,異なる展開シナリオのための単一構成可能なモデルを構築することを目的とする。
本稿では,各フレームに同一の注目マスクが適用される固定マスキングと,各フレームの注目マスクがチャンク境界によって決定されるチャンクマスクとを,認識精度と遅延の観点から比較した総合的な実験を行う。
次に、トレーニング時にターゲットディストリビューションから注意マスクをサンプリングして、異なる構成で動作可能なモデルを構築する、可変マスクの使用について検討する。
最後に、単一構成可能なモデルを用いて、第1パスストリーミング認識と第2パス音響再構成の両方を実行する方法について検討する。
実験によると、チャンクマスキングはFastEmitの有無にかかわらず、固定マスキングと比較して、レイテンシトレードオフよりも精度がよい。
また, 可変マスキングにより, 音響再現シナリオにおいて, 最大8%精度が向上することを示した。
関連論文リスト
- Mask-Weighted Spatial Likelihood Coding for Speaker-Independent Joint Localization and Mask Estimation [14.001679439460359]
固定空間格子に関する話者の時間周波数マスクと相対方向を用いて、ビームフォーマのパラメータを推定することができる。
マスクと位置の両方をグリッドにエンコードして,両量の同時推定を可能にする方法について分析する。
論文 参考訳(メタデータ) (2024-10-25T14:43:32Z) - Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。
新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文 参考訳(メタデータ) (2024-09-04T01:38:37Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Rethinking Remote Sensing Change Detection With A Mask View [6.3921187411592655]
リモートセンシング変化検出は、同じ領域で記録された2つ以上の画像を比較することを目的としているが、異なるスタンプで、地理的実体や環境要因の変化を評価する。
この欠点に対処するために、マスクビューによる変更検出を再考し、さらに、1)メタアーキテクチャCDMaskと2)インスタンスネットワークCDMaskFormerを提案する。
論文 参考訳(メタデータ) (2024-06-21T17:27:58Z) - MaskCD: A Remote Sensing Change Detection Network Based on Mask Classification [29.15203530375882]
深層学習を用いたリモートセンシング(RS)画像からの変化(CD)を文献的に広く研究している。
入力画像対から分類マスクを適応的に生成し,変化領域を検出するMaskCDを提案する。
ピクセルワイズ表現を学習可能なマスク提案に復号することで、望まれる変更対象を再構築する。
論文 参考訳(メタデータ) (2024-04-18T11:05:15Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - M2T: Masking Transformers Twice for Faster Decoding [39.6722311745861]
マスク付きトークン予測のために訓練された双方向トランスフォーマーが、ニューラル画像圧縮にどのように適用できるかを示す。
我々は,事前定義された決定論的スケジュールが画像圧縮にも有効であることを示す。
論文 参考訳(メタデータ) (2023-04-14T14:25:44Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - SipMask: Spatial Information Preservation for Fast Image and Video
Instance Segmentation [149.242230059447]
SipMaskと呼ばれる高速な単一ステージインスタンス分割法を提案する。
検出されたバウンディングボックスの異なるサブリージョンにインスタンスのマスク予測を分離することで、インスタンス固有の空間情報を保存する。
リアルタイム機能の面では、SipMaskはYOLACTを、同様の設定で3.0%(マスクAP)という絶対的なゲインで上回ります。
論文 参考訳(メタデータ) (2020-07-29T12:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。