論文の概要: Streaming Transformer Transducer Based Speech Recognition Using
Non-Causal Convolution
- arxiv url: http://arxiv.org/abs/2110.05241v1
- Date: Thu, 7 Oct 2021 21:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 12:12:17.336174
- Title: Streaming Transformer Transducer Based Speech Recognition Using
Non-Causal Convolution
- Title(参考訳): 非コーサル畳み込みを用いたストリーミングトランスデューサに基づく音声認識
- Authors: Yangyang Shi, Chunyang Wu, Dilin Wang, Alex Xiao, Jay Mahadeokar,
Xiaohui Zhang, Chunxi Liu, Ke Li, Yuan Shangguan, Varun Nagaraja, Ozlem
Kalinli, Mike Seltzer
- Abstract要約: 中心ブロックとルックアヘッドのコンテキストを別々に処理するために,非因果畳み込み(non-causal convolution)を提案する。
この方法は、畳み込みにおけるルックアヘッドコンテキストを活用し、同様のトレーニングと復号効率を維持する。
本報告では,音声の注目度を向上するために,新たな履歴文脈圧縮手法を適用した。
- 参考スコア(独自算出の注目度): 27.619488768506887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper improves the streaming transformer transducer for speech
recognition by using non-causal convolution. Many works apply the causal
convolution to improve streaming transformer ignoring the lookahead context. We
propose to use non-causal convolution to process the center block and lookahead
context separately. This method leverages the lookahead context in convolution
and maintains similar training and decoding efficiency. Given the similar
latency, using the non-causal convolution with lookahead context gives better
accuracy than causal convolution, especially for open-domain dictation
scenarios. Besides, this paper applies talking-head attention and a novel
history context compression scheme to further improve the performance. The
talking-head attention improves the multi-head self-attention by transferring
information among different heads. The history context compression method
introduces more extended history context compactly. On our in-house data, the
proposed methods improve a small Emformer baseline with lookahead context by
relative WERR 5.1\%, 14.5\%, 8.4\% on open-domain dictation, assistant general
scenarios, and assistant calling scenarios, respectively.
- Abstract(参考訳): 本稿では,非因果畳み込みを用いた音声認識のためのストリーミングトランスデューサの改良を行った。
多くの作品が因果畳み込みを適用し、ルックアヘッドコンテキストを無視してストリーミングトランスフォーマーを改善する。
中心ブロックとルックアヘッドコンテキストを別々に処理するために,非コーサル畳み込みを用いることを提案する。
この方法は畳み込みにおいてルックアヘッドコンテキストを活用し、同様のトレーニングと復号効率を維持する。
同様のレイテンシを考えると、lookaheadコンテキストと非causal畳み込みを使用することは因果畳み込みよりも精度が向上する。
また,本論文では,対話的頭部注意と新しい履歴コンテキスト圧縮手法を適用し,さらに性能を向上させる。
トーキングヘッドアテンションは、異なるヘッド間で情報を転送することで、マルチヘッド自己注意を改善する。
履歴コンテキスト圧縮法は、より拡張された履歴コンテキストをコンパクトに導入する。
提案手法は, 内部データに基づいて, 相対的WERR 5.1\%, 14.5\%, 8.4\%のオープンドメイン予測, アシスタントジェネラルシナリオ, アシスタントコールシナリオにより, ルックアヘッドコンテキストによる小さなEmformerベースラインを改善する。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - Attention-based conditioning methods using variable frame rate for
style-robust speaker verification [21.607777746331998]
そこで本研究では,テキスト非依存話者検証において,発話スタイルの変動に頑健な話者埋め込みを抽出する手法を提案する。
自己アテンション層の外部条件ベクトルとして,エントロピーに基づく可変フレームレートベクトルを提案する。
論文 参考訳(メタデータ) (2022-06-28T01:14:09Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Convolutions and Self-Attention: Re-interpreting Relative Positions in
Pre-trained Language Models [20.90235094798394]
自己アテンション層における相対的な位置埋め込みは、最近提案された動的軽量畳み込みと等価であることを示す。
本稿では,従来の相対的位置埋め込み手法を畳み込みの枠組みで結合した複合的注意法を提案する。
論文 参考訳(メタデータ) (2021-06-10T05:11:35Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。