論文の概要: Hybrid Transducer and Attention based Encoder-Decoder Modeling for
Speech-to-Text Tasks
- arxiv url: http://arxiv.org/abs/2305.03101v1
- Date: Thu, 4 May 2023 18:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 16:26:04.453811
- Title: Hybrid Transducer and Attention based Encoder-Decoder Modeling for
Speech-to-Text Tasks
- Title(参考訳): 音声からテキストへのタスクのためのハイブリッドトランスデューサとアテンションに基づくエンコーダ・デコーダモデリング
- Authors: Yun Tang, Anna Y. Sun, Hirofumi Inaguma, Xinyue Chen, Ning Dong, Xutai
Ma, Paden D. Tomasello and Juan Pino
- Abstract要約: そこで本稿では,Transducer と Attention based AED-Decoder (TAED) を組み合わせることで,音声からテキストへ変換する手法を提案する。
本手法は,Transducerのストリーミング特性を維持しつつ,非単調シーケンスにおけるTransducerの強度をシーケンス学習に活用する。
提案手法をtextscMuST-C データセットで評価し,TAED が Transducer よりもオフライン自動音声認識(ASR) や 音声からテキストへの変換(ST) 処理に優れていることを示す。
- 参考スコア(独自算出の注目度): 28.440232737011453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transducer and Attention based Encoder-Decoder (AED) are two widely used
frameworks for speech-to-text tasks. They are designed for different purposes
and each has its own benefits and drawbacks for speech-to-text tasks. In order
to leverage strengths of both modeling methods, we propose a solution by
combining Transducer and Attention based Encoder-Decoder (TAED) for
speech-to-text tasks. The new method leverages AED's strength in non-monotonic
sequence to sequence learning while retaining Transducer's streaming property.
In the proposed framework, Transducer and AED share the same speech encoder.
The predictor in Transducer is replaced by the decoder in the AED model, and
the outputs of the decoder are conditioned on the speech inputs instead of
outputs from an unconditioned language model. The proposed solution ensures
that the model is optimized by covering all possible read/write scenarios and
creates a matched environment for streaming applications. We evaluate the
proposed approach on the \textsc{MuST-C} dataset and the findings demonstrate
that TAED performs significantly better than Transducer for offline automatic
speech recognition (ASR) and speech-to-text translation (ST) tasks. In the
streaming case, TAED outperforms Transducer in the ASR task and one ST
direction while comparable results are achieved in another translation
direction.
- Abstract(参考訳): Transducer と Attention based Encoder-Decoder (AED) は、音声からテキストへのタスクに広く使われている2つのフレームワークである。
それらは異なる目的のために設計されており、それぞれに独自の利点と欠点がある。
双方のモデリング手法の強みを活用するために,音声からテキストへのタスクに対して,TransducerとAttention based Encoder-Decoder (TAED)を組み合わせた手法を提案する。
本手法は,Transducerのストリーミング特性を維持しつつ,非単調シーケンスにおけるAEDの強度をシーケンス学習に活用する。
提案したフレームワークでは、TransducerとAEDは同じ音声エンコーダを共有している。
トランスデューサの予測子はAEDモデルでデコーダに置き換えられ、デコーダの出力は無条件言語モデルからの出力ではなく音声入力で条件付けされる。
提案したソリューションは、可能なすべての読み取り/書き込みシナリオをカバーしてモデルを最適化することを保証する。
提案手法をtextsc{MuST-C} データセットで評価し,TAED がオフライン自動音声認識 (ASR) や音声テキスト翻訳 (ST) のタスクにおいて Transducer よりもはるかに優れていることを示す。
ストリーミングの場合、TAEDはASRタスクにおいてTransducerを1つのST方向で上回り、同じ結果が別の翻訳方向で達成される。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Rethinking Speech Recognition with A Multimodal Perspective via Acoustic
and Semantic Cooperative Decoding [29.80299587861207]
ASRのための音響・意味的協調デコーダ(ASCD)を提案する。
音響的特徴と意味的特徴を2つの異なる段階で処理するバニラデコーダとは異なり、ASCDはそれらを協調的に統合する。
音響情報と意味情報の両方を協調的に活用することにより,ASCDは性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T13:25:44Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。