論文の概要: Variable Attention Masking for Configurable Transformer Transducer
Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.01438v1
- Date: Wed, 2 Nov 2022 19:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:52:49.797825
- Title: Variable Attention Masking for Configurable Transformer Transducer
Speech Recognition
- Title(参考訳): 構成可能なトランスデューサ音声認識のための可変注意マスキング
- Authors: Pawel Swietojanski, Stefan Braun, Dogan Can, Thiago Fraga da Silva,
Arnab Ghoshal, Takaaki Hori, Roger Hsiao, Henry Mason, Erik McDermott, Honza
Silovsky, Ruchir Travadi, Xiaodan Zhuang
- Abstract要約: 本研究では,トランスデューサを用いた音声認識におけるアテンションマスキングの活用について検討する。
チャンクマスキングは固定マスキングに比べて,遅延トレードオフよりも精度がよいことを示す。
また,音響再構成シナリオにおいて,可変マスキングにより最大8%の精度で精度が向上することを示した。
- 参考スコア(独自算出の注目度): 23.546294634238677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies the use of attention masking in transformer transducer
based speech recognition for building a single configurable model for different
deployment scenarios. We present a comprehensive set of experiments comparing
fixed masking, where the same attention mask is applied at every frame, with
chunked masking, where the attention mask for each frame is determined by chunk
boundaries, in terms of recognition accuracy and latency. We then explore the
use of variable masking, where the attention masks are sampled from a target
distribution at training time, to build models that can work in different
configurations. Finally, we investigate how a single configurable model can be
used to perform both first pass streaming recognition and second pass acoustic
rescoring. Experiments show that chunked masking achieves a better accuracy vs
latency trade-off compared to fixed masking, both with and without FastEmit. We
also show that variable masking improves the accuracy by up to 8% relative in
the acoustic re-scoring scenario.
- Abstract(参考訳): 本研究は,トランスデューサを用いた音声認識におけるアテンションマスキングを用いて,異なる展開シナリオのための単一構成可能なモデルを構築することを目的とする。
本稿では,各フレームに同一の注目マスクが適用される固定マスキングと,各フレームの注目マスクがチャンク境界によって決定されるチャンクマスクとを,認識精度と遅延の観点から比較した総合的な実験を行う。
次に、トレーニング時にターゲットディストリビューションから注意マスクをサンプリングして、異なる構成で動作可能なモデルを構築する、可変マスクの使用について検討する。
最後に、単一構成可能なモデルを用いて、第1パスストリーミング認識と第2パス音響再構成の両方を実行する方法について検討する。
実験によると、チャンクマスキングはFastEmitの有無にかかわらず、固定マスキングと比較して、レイテンシトレードオフよりも精度がよい。
また, 可変マスキングにより, 音響再現シナリオにおいて, 最大8%精度が向上することを示した。
関連論文リスト
- Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - M2T: Masking Transformers Twice for Faster Decoding [39.6722311745861]
マスク付きトークン予測のために訓練された双方向トランスフォーマーが、ニューラル画像圧縮にどのように適用できるかを示す。
我々は,事前定義された決定論的スケジュールが画像圧縮にも有効であることを示す。
論文 参考訳(メタデータ) (2023-04-14T14:25:44Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MaskViT: Masked Visual Pre-Training for Video Prediction [29.25521342538311]
マスク付き視覚モデルを用いて、トランスフォーマーを事前学習することで、優れた映像予測モデルを作成する。
MaskViTは、ビデオ予測における以前の作業よりも優れ、パラメータ効率が高く、高解像度のビデオを生成することができる。
我々の研究は、マスク付き視覚モデリングの一般的な枠組みを活用することで、強力な予測モデルでエンボディードエージェントを育むことができることを示唆している。
論文 参考訳(メタデータ) (2022-06-23T17:59:33Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z) - SipMask: Spatial Information Preservation for Fast Image and Video
Instance Segmentation [149.242230059447]
SipMaskと呼ばれる高速な単一ステージインスタンス分割法を提案する。
検出されたバウンディングボックスの異なるサブリージョンにインスタンスのマスク予測を分離することで、インスタンス固有の空間情報を保存する。
リアルタイム機能の面では、SipMaskはYOLACTを、同様の設定で3.0%(マスクAP)という絶対的なゲインで上回ります。
論文 参考訳(メタデータ) (2020-07-29T12:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。