論文の概要: Dual-Encoder Architecture with Encoder Selection for Joint Close-Talk
and Far-Talk Speech Recognition
- arxiv url: http://arxiv.org/abs/2109.08744v1
- Date: Fri, 17 Sep 2021 19:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:07:22.731104
- Title: Dual-Encoder Architecture with Encoder Selection for Joint Close-Talk
and Far-Talk Speech Recognition
- Title(参考訳): 近距離音声認識と遠距離音声認識のためのエンコーダ選択を伴うデュアルエンコーダアーキテクチャ
- Authors: Felix Weninger, Marco Gaudesi, Ralf Leibold, Roberto Gemello, Puming
Zhan
- Abstract要約: 本稿では、近接語(CT)と遠方語(FT)の連成モデリングのための二重エンコーダASRアーキテクチャを提案する。
提案したデュアルエンコーダアーキテクチャは、CTとFTの両方の入力を使用する場合、最大9%の相対的なWER削減が得られる。
- 参考スコア(独自算出の注目度): 6.618254914001219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a dual-encoder ASR architecture for joint modeling
of close-talk (CT) and far-talk (FT) speech, in order to combine the advantages
of CT and FT devices for better accuracy. The key idea is to add an encoder
selection network to choose the optimal input source (CT or FT) and the
corresponding encoder. We use a single-channel encoder for CT speech and a
multi-channel encoder with Spatial Filtering neural beamforming for FT speech,
which are jointly trained with the encoder selection. We validate our approach
on both attention-based and RNN Transducer end-to-end ASR systems. The
experiments are done with conversational speech from a medical use case, which
is recorded simultaneously with a CT device and a microphone array. Our results
show that the proposed dual-encoder architecture obtains up to 9% relative WER
reduction when using both CT and FT input, compared to the best single-encoder
system trained and tested in matched condition.
- Abstract(参考訳): 本稿では,より高精度なCTとFTの利点を両立させるために,近い話(CT)と遠話(FT)の連成モデリングのためのデュアルエンコーダASRアーキテクチャを提案する。
鍵となるアイデアは、最適な入力源(CTまたはFT)と対応するエンコーダを選択するエンコーダ選択ネットワークを追加することである。
我々は,CT音声に単一チャネルエンコーダ,FT音声に空間フィルタリングニューラルビームフォーミングを付加したマルチチャネルエンコーダを用い,エンコーダの選択と共同で訓練を行った。
我々は、アテンションベースおよびRNNトランスデューサのエンドツーエンドASRシステムに対するアプローチを検証する。
実験は医療現場の会話音声を用いて行われ、CT装置とマイクアレイと同時に記録される。
その結果,提案するデュアルエンコーダアーキテクチャは,ct と ft の両方の入力を用いた場合,最大 9% の相対 wer 削減が得られることがわかった。
関連論文リスト
- Joint Beam Search Integrating CTC, Attention, and Transducer Decoders [53.297697898510194]
4つのデコーダが同一のエンコーダを共有するような共同モデリング手法を提案する。
4Dモデルは共同で訓練され、モデルの正規化とモデルの堅牢性を最大化する。
さらに,3つのデコーダを組み合わせることで,新しい3つのビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL
Models [23.383924361298874]
CTCとCASS-NATの利点を組み合わせた新しいエンコーダベースのNASRUniEnc-CASSNATを提案する。
提案したUniEnc-CASSNATは、最先端のNASR結果を実現し、エンコーダのみでCASS-NATに匹敵する。
論文 参考訳(メタデータ) (2024-02-14T02:11:04Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - Hybrid Transducer and Attention based Encoder-Decoder Modeling for
Speech-to-Text Tasks [28.440232737011453]
そこで本稿では,Transducer と Attention based AED-Decoder (TAED) を組み合わせることで,音声からテキストへ変換する手法を提案する。
本手法は,Transducerのストリーミング特性を維持しつつ,非単調シーケンスにおけるTransducerの強度をシーケンス学習に活用する。
提案手法をtextscMuST-C データセットで評価し,TAED が Transducer よりもオフライン自動音声認識(ASR) や 音声からテキストへの変換(ST) 処理に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-04T18:34:50Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。