論文の概要: ASTRA: Aligning Speech and Text Representations for Asr without Sampling
- arxiv url: http://arxiv.org/abs/2406.06664v2
- Date: Thu, 13 Jun 2024 15:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 13:45:10.087716
- Title: ASTRA: Aligning Speech and Text Representations for Asr without Sampling
- Title(参考訳): ASTRA: サンプリングなしのアサーのための音声とテキスト表現のアライメント
- Authors: Neeraj Gaur, Rohan Agrawal, Gary Wang, Parisa Haghani, Andrew Rosenberg, Bhuvana Ramabhadran,
- Abstract要約: ASTRAはテキスト注入による音声認識(ASR)を改善する新しい手法である。
一般的な技法とは異なり、ASTRAは音声とテキストのモダリティ間のシーケンス長をサンプリングする必要がない。
- 参考スコア(独自算出の注目度): 20.925353958092874
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces ASTRA, a novel method for improving Automatic Speech Recognition (ASR) through text injection.Unlike prevailing techniques, ASTRA eliminates the need for sampling to match sequence lengths between speech and text modalities. Instead, it leverages the inherent alignments learned within CTC/RNNT models. This approach offers the following two advantages, namely, avoiding potential misalignment between speech and text features that could arise from upsampling and eliminating the need for models to accurately predict duration of sub-word tokens. This novel formulation of modality (length) matching as a weighted RNNT objective matches the performance of the state-of-the-art duration-based methods on the FLEURS benchmark, while opening up other avenues of research in speech processing.
- Abstract(参考訳): 本稿では,テキスト注入による音声認識(ASR)の改良手法であるASTRAを紹介する。
代わりに、CTC/RNNTモデルで学んだ固有のアライメントを活用する。
このアプローチは、アップサンプリングから生じる可能性のある音声とテキストの特徴の潜在的な不一致を回避し、サブワードトークンの期間を正確に予測するモデルの必要性を排除し、以下の2つの利点を提供する。
重み付けされたRNNTの目的とするモダリティ(長さ)マッチングの新規な定式化は、FLEURSベンチマークにおける最先端の持続時間に基づく手法の性能と一致し、音声処理における他の研究の道を開く。
関連論文リスト
- BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - SegINR: Segment-wise Implicit Neural Representation for Sequence Alignment in Neural Text-to-Speech [13.82115484420239]
我々は、ニューラルテキスト音声(TTS)の新しいアプローチであるSeginRを提案する。
補間予測や複雑な自己回帰(AR)や非自己回帰(NAR)フレームレベルのシーケンスモデリングに頼ることなく、シーケンスアライメントに対処する。
ゼロショット適応TSシナリオにおける実験により、SegINRは従来の音声品質を計算効率で上回ることを示した。
論文 参考訳(メタデータ) (2024-10-07T02:04:58Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - End to End ASR System with Automatic Punctuation Insertion [0.0]
本稿では,TED.com から入手可能な transcript を用いて TEDLium データセットの句読点書き起こしを生成する手法を提案する。
また,音声信号から単語と句を同時に出力するエンドツーエンドのASRシステムを提案する。
論文 参考訳(メタデータ) (2020-12-03T15:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。