論文の概要: End-to-end Speech Recognition with similar length speech and text
- arxiv url: http://arxiv.org/abs/2510.10453v1
- Date: Sun, 12 Oct 2025 05:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.945628
- Title: End-to-end Speech Recognition with similar length speech and text
- Title(参考訳): 類似長音声とテキストを用いたエンドツーエンド音声認識
- Authors: Peng Fan, Wenping Wang, Fei Deng,
- Abstract要約: 過去の研究では、テキストと音声の整合性に様々なアプローチが採用されている。
a) 時間独立損失(TIL)とb) アラインドクロスエントロピー(AXE)損失(AXE)の2つのアライメント方法を紹介する。
AISHELL-1およびAISHELL-2サブセットの実験結果から,提案手法は従来よりも優れ,フレーム数の少なくとも86%の削減を実現していることがわかった。
- 参考スコア(独自算出の注目度): 30.788306451696865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The mismatch of speech length and text length poses a challenge in automatic speech recognition (ASR). In previous research, various approaches have been employed to align text with speech, including the utilization of Connectionist Temporal Classification (CTC). In earlier work, a key frame mechanism (KFDS) was introduced, utilizing intermediate CTC outputs to guide downsampling and preserve keyframes, but traditional methods (CTC) failed to align speech and text appropriately when downsampling speech to a text-similar length. In this paper, we focus on speech recognition in those cases where the length of speech aligns closely with that of the corresponding text. To address this issue, we introduce two methods for alignment: a) Time Independence Loss (TIL) and b) Aligned Cross Entropy (AXE) Loss, which is based on edit distance. To enhance the information on keyframes, we incorporate frame fusion by applying weights and summing the keyframe with its context 2 frames. Experimental results on AISHELL-1 and AISHELL-2 dataset subsets show that the proposed methods outperform the previous work and achieve a reduction of at least 86\% in the number of frames.
- Abstract(参考訳): 音声長とテキスト長のミスマッチは、自動音声認識(ASR)において課題となる。
過去の研究では、コネクショニスト時間分類(CTC)の活用など、テキストを音声と整合させる様々なアプローチが採用されている。
初期の研究では、キーフレーム機構(KFDS)を導入し、中間のCTC出力を利用して、ダウンサンプリングとキーフレームの保存を行ったが、従来のメソッド(CTC)は、音声をテキストに類似した長さにダウンサンプリングする際に、適切に音声とテキストを調整できなかった。
本稿では,音声の長さが対応するテキストと密接に一致している場合に,音声認識に焦点をあてる。
この問題に対処するために、アライメントのための2つの方法を紹介します。
イ 時間独立損失(TIL)及び
b)編集距離に基づくアラインドクロスエントロピー(AXE)ロス。
キーフレームに関する情報を強化するために,重みを付け,キーフレームをコンテキスト2フレームにまとめることで,フレーム融合を組み込む。
AISHELL-1およびAISHELL-2データセットサブセットの実験結果から,提案手法は従来よりも優れており,フレーム数の86\%以上削減できることがわかった。
関連論文リスト
- Clip-TTS: Contrastive Text-content and Mel-spectrogram, A High-Quality Text-to-Speech Method based on Contextual Semantic Understanding [0.6798775532273751]
Clip アーキテクチャに基づく TTS 方式 Clip-TTS を提案する。
この方法はClipフレームワークを用いてテキストエンコーディングの段階でテキストコンテンツと実際のメル-スペクトログラムの接続を確立する。
モデルアーキテクチャに関しては、Clip-TTSが高速な推論速度を実現するためのTransformerの基本構造を採用しています。
論文 参考訳(メタデータ) (2025-02-26T07:09:33Z) - CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting [6.856101216726412]
本稿では,テキストベースのキーワード入力によるオープン語彙キーワードスポッティング(KWS)のストリーミング手法を提案する。
提案手法は,各入力フレームに対して,コネクショニスト時間分類(CTC)を用いて最適なアライメント終端を求める。
次に、フレームレベルの音響埋め込み(AE)を集約して、ターゲットのキーワードテキストのテキスト埋め込み(TE)と整合する高レベル(文字、単語、フレーズ)のAEを得る。
論文 参考訳(メタデータ) (2024-06-12T06:44:40Z) - Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription [31.774032625780414]
TF-GridNetは実残響条件下での音声分離において顕著な性能を示した。
混合エンコーダを静的な2話者シナリオから自然なミーティングコンテキストに拡張する。
実験の結果、単一のマイクを使用して、LibriCSS上での最先端のパフォーマンスが新たに向上した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。