論文の概要: End-to-End Rich Transcription-Style Automatic Speech Recognition with
Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2107.05382v1
- Date: Wed, 7 Jul 2021 12:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-18 12:34:38.002334
- Title: End-to-End Rich Transcription-Style Automatic Speech Recognition with
Semi-Supervised Learning
- Title(参考訳): 半教師付き学習を用いたエンド・ツー・エンドリッチ転写スタイル自動音声認識
- Authors: Tomohiro Tanaka, Ryo Masumura, Mana Ihori, Akihiko Takashima, Shota
Orihashi, Naoki Makishima
- Abstract要約: 本稿では,RT-ASRシステムを構築するための半教師付き学習手法を提案する。
私たちの学習における重要なプロセスは、一般的な転写スタイルのデータセットを擬似リッチな転写スタイルのデータセットに変換することです。
自発性ASR課題に対する実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 28.516240952627076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a semi-supervised learning method for building end-to-end rich
transcription-style automatic speech recognition (RT-ASR) systems from
small-scale rich transcription-style and large-scale common transcription-style
datasets. In spontaneous speech tasks, various speech phenomena such as
fillers, word fragments, laughter and coughs, etc. are often included. While
common transcriptions do not give special awareness to these phenomena, rich
transcriptions explicitly convert them into special phenomenon tokens as well
as textual tokens. In previous studies, the textual and phenomenon tokens were
simultaneously estimated in an end-to-end manner. However, it is difficult to
build accurate RT-ASR systems because large-scale rich transcription-style
datasets are often unavailable. To solve this problem, our training method uses
a limited rich transcription-style dataset and common transcription-style
dataset simultaneously. The Key process in our semi-supervised learning is to
convert the common transcription-style dataset into a pseudo-rich
transcription-style dataset. To this end, we introduce style tokens which
control phenomenon tokens are generated or not into transformer-based
autoregressive modeling. We use this modeling for generating the pseudo-rich
transcription-style datasets and for building RT-ASR system from the pseudo and
original datasets. Our experiments on spontaneous ASR tasks showed the
effectiveness of the proposed method.
- Abstract(参考訳): 本稿では,小規模・大規模共通書き起こし型データセットから,エンド・ツー・エンドのリッチ書き起こし型自動音声認識(rt-asr)システムを構築するための半教師あり学習手法を提案する。
自発的な音声タスクでは、フィラー、単語断片、笑い、せきなど様々な音声現象が発生する。
しばしば含まれます
一般的な転写はこれらの現象に特別な認識を与えないが、リッチな転写はそれらをテキストトークンと同様に特別な現象トークンに明示的に変換する。
前回の研究では、テキストと現象のトークンはエンドツーエンドで同時に推定された。
しかし、大規模なリッチな転写スタイルのデータセットがしばしば利用できないため、正確なRT-ASRシステムを構築するのは難しい。
この問題を解決するために,本手法ではリッチなリクリプションスタイルデータセットと共通リクリプションスタイルのデータセットを同時に使用する。
半教師付き学習における鍵となるプロセスは、共通の転写型データセットを擬似リッチな転写型データセットに変換することです。
この目的のために,トランスフォーマティブ・オートレグレッシブ・モデリングにおいて,現象トークンが生成されるか否かを制御するスタイルトークンを導入する。
このモデリングは、擬似リッチな転写スタイルのデータセットを生成し、擬似および原文のデータセットからRT-ASRシステムを構築するために使用される。
自発性ASR課題に対する実験により,提案手法の有効性が示された。
関連論文リスト
- Alignment-Free Training for Transducer-based Multi-Talker ASR [55.1234384771616]
マルチストーカーRNNT(MT-RNNT)は、フロントエンドのソース分離を犠牲にすることなく、認識を実現することを目的としている。
本稿では,MT-RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)のアライメントフリートレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:58:11Z) - General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Improving Data Driven Inverse Text Normalization using Data Augmentation [14.820077884045645]
逆テキスト正規化(ITN)は、自動音声認識(ASR)システムの音声フォーム出力を書式に変換するために用いられる。
本稿では、ドメイン外のテキストデータからリッチな音声による数値ペアを効果的に生成するデータ拡張手法を提案する。
我々は、データ拡張技術を用いてトレーニングしたITNモデルが、ドメイン内データのみを用いてトレーニングしたITNモデルより一貫して優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-07-20T06:07:26Z) - Context-Aware Transformer Transducer for Speech Recognition [21.916660252023707]
本稿では,この文脈信号を利用して,最先端の変圧器ベースASRシステムを改善する新しい文脈対応変圧器トランスデューサ(CATT)ネットワークを提案する。
BERTベースのコンテキストエンコーダを用いたCATTは、ベースライントランスデューサの単語誤り率を改善し、既存の深層文脈モデルよりも24.2%、19.4%向上することを示す。
論文 参考訳(メタデータ) (2021-11-05T04:14:35Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - TS-Net: OCR Trained to Switch Between Text Transcription Styles [0.0]
Transcription Style Block (TSB) による既存のテキスト認識ネットワーク拡張を提案する。
TSBは、転写規則の明確な知識なしに、複数の転写スタイルを切り替えるデータから学ぶことができます。
TSBは、人工データに対する制御実験において、完全に異なる転写様式を学習できることを示した。
論文 参考訳(メタデータ) (2021-03-09T15:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。