論文の概要: Learning to Count Words in Fluent Speech enables Online Speech
Recognition
- arxiv url: http://arxiv.org/abs/2006.04928v3
- Date: Tue, 24 Nov 2020 13:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 02:52:29.889161
- Title: Learning to Count Words in Fluent Speech enables Online Speech
Recognition
- Title(参考訳): 会話中の単語を数える学習でオンライン音声認識が可能に
- Authors: George Sterpu, Christian Saam, Naomi Harte
- Abstract要約: 本稿では,変換器を用いたオンライン音声認識システムであるTarisを紹介する。
LRS2、LibriSpeech、Aishell-1データセットで実施された実験では、オンラインシステムは5セグメントの動的アルゴリズム遅延を持つ場合、オフラインシステムと同等に動作することが示された。
- 参考スコア(独自算出の注目度): 10.74796391075403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence to Sequence models, in particular the Transformer, achieve state of
the art results in Automatic Speech Recognition. Practical usage is however
limited to cases where full utterance latency is acceptable. In this work we
introduce Taris, a Transformer-based online speech recognition system aided by
an auxiliary task of incremental word counting. We use the cumulative word sum
to dynamically segment speech and enable its eager decoding into words.
Experiments performed on the LRS2, LibriSpeech, and Aishell-1 datasets of
English and Mandarin speech show that the online system performs comparable
with the offline one when having a dynamic algorithmic delay of 5 segments.
Furthermore, we show that the estimated segment length distribution resembles
the word length distribution obtained with forced alignment, although our
system does not require an exact segment-to-word equivalence. Taris introduces
a negligible overhead compared to a standard Transformer, while the local
relationship modelling between inputs and outputs grants invariance to sequence
length by design.
- Abstract(参考訳): シーケンスモデル、特にトランスフォーマーへのシーケンスは、自動音声認識における技術結果の状態を達成している。
しかし、実際の使用は全発話遅延が許容される場合に限られる。
本稿では,インクリメンタル・ワード・カウンティングの補助タスクにより,トランスフォーマティブを用いたオンライン音声認識システムtarisを紹介する。
累積的な単語和を用いて音声を動的に分節し、その熱心に単語に復号できる。
LRS2、LibriSpeech、Aishell-1といった英語とマンダリンの音声のデータセットで行った実験によると、オンラインシステムは5セグメントの動的なアルゴリズム遅延がある場合、オフラインのものと同等に動作する。
さらに, 推定セグメント長分布は, 正確なセグメント間等価性は必要とせず, 強制アライメントにより得られる単語長分布に類似していることを示す。
Tarisは標準のTransformerに比べて無視できないオーバーヘッドを導入し、入力と出力の間の局所的な関係は設計によってシーケンス長に不変性を与える。
関連論文リスト
- TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Streaming Simultaneous Speech Translation with Augmented Memory
Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2020-10-30T18:28:42Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。