論文の概要: Timestamped Embedding-Matching Acoustic-to-Word CTC ASR
- arxiv url: http://arxiv.org/abs/2306.11473v1
- Date: Tue, 20 Jun 2023 11:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:32:04.784487
- Title: Timestamped Embedding-Matching Acoustic-to-Word CTC ASR
- Title(参考訳): タイムスタンプ付き埋め込み型音響言語CTC ASR
- Authors: Woojay Jeon
- Abstract要約: 組込み型単語レベル接続性時間分類(CTC)自動音声認識(ASR)の学習方法について述べる。
単語タイムスタンプは、テスト時に二次モデルや強制アライメントプロセスに頼ることなく、ASRが単語セグメンテーションと単語混乱ネットワークを出力することを可能にする。
- 参考スコア(独自算出の注目度): 2.842794675894731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we describe a novel method of training an embedding-matching
word-level connectionist temporal classification (CTC) automatic speech
recognizer (ASR) such that it directly produces word start times and durations,
required by many real-world applications, in addition to the transcription. The
word timestamps enable the ASR to output word segmentations and word confusion
networks without relying on a secondary model or forced alignment process when
testing. Our proposed system has similar word segmentation accuracy as a hybrid
DNN-HMM (Deep Neural Network-Hidden Markov Model) system, with less than 3ms
difference in mean absolute error in word start times on TIMIT data. At the
same time, we observed less than 5% relative increase in the word error rate
compared to the non-timestamped system when using the same audio training data
and nearly identical model size. We also contribute more rigorous analysis of
multiple-hypothesis embedding-matching ASR in general.
- Abstract(参考訳): 本稿では,音声認識に加えて,実世界の多くのアプリケーションで要求される単語開始時間と継続時間を直接生成するように,単語レベル接続型時間分類 (ctc) 自動音声認識 (asr) を学習する新しい手法について述べる。
単語タイムスタンプにより、テスト時に二次モデルや強制アライメントプロセスに頼ることなく、ASRは単語分割と単語混乱ネットワークを出力できる。
提案システムは,単語開始時間の平均絶対誤差が3ms未満のDNN-HMM(Deep Neural Network-Hidden Markov Model)システムと類似した単語分割精度を有する。
同時に、同じ音声訓練データとほぼ同一のモデルサイズを使用する場合、単語誤り率を非タイムスタンプシステムと比較すると、単語誤り率の5%未満の増加を観測した。
また, 組込み型ASRのより厳密な解析にも貢献する。
関連論文リスト
- On the Relevance of Phoneme Duration Variability of Synthesized Training
Data for Automatic Speech Recognition [0.552480439325792]
合成データの時間構造とASRトレーニングとの関係に着目した。
本研究では, 合成データ品質の劣化が, 非自己回帰性TSの持続時間モデルにどの程度影響されているかを示す。
簡単なアルゴリズムを用いて,TTSシステムの音素持続時間分布を実時間に近づける。
論文 参考訳(メタデータ) (2023-10-12T08:45:21Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Sequence-to-Sequence Learning via Attention Transfer for Incremental
Speech Recognition [25.93405777713522]
ISR タスクにアテンションベース ASR の本来のアーキテクチャを用いることができるかを検討する。
我々は、より薄いモデルや浅いモデルを使う代わりに、教師モデルのオリジナルのアーキテクチャを短いシーケンスで保持する代替の学生ネットワークを設計する。
実験の結果,認識プロセスの開始時刻を約1.7秒で遅延させることで,終了まで待たなければならないものと同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-04T05:06:01Z) - Emotion recognition by fusing time synchronous and time asynchronous
representations [17.26466867595571]
マルチモーダル感情認識のための新しい2分岐ニューラルネットワークモデル構造を提案する。
時間同期ブランチ(TSB)と時間非同期ブランチ(TAB)で構成される。
2分岐構造は、すべての一般的なテスト設定を伴う4方向の分類において、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-10-27T07:14:31Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。