論文の概要: Automatic recognition of suprasegmentals in speech
- arxiv url: http://arxiv.org/abs/2108.01122v2
- Date: Wed, 4 Aug 2021 01:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 10:40:32.698669
- Title: Automatic recognition of suprasegmentals in speech
- Title(参考訳): 音声における助詞の自動認識
- Authors: Jiahong Yuan, Neville Ryant, Xingyu Cai, Kenneth Church, Mark Liberman
- Abstract要約: CTCを用いた微調整wav2vec 2.0は,音節,音調,ピッチアクセントの自動認識における最先端性を向上させることができることを示す。
マンダリン音の認識は、微調整wav2vec 2.0における2つのタスクを組み合わせることで、英語の音素認識の恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 18.413746933261326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study reports our efforts to improve automatic recognition of
suprasegmentals by fine-tuning wav2vec 2.0 with CTC, a method that has been
successful in automatic speech recognition. We demonstrate that the method can
improve the state-of-the-art on automatic recognition of syllables, tones, and
pitch accents. Utilizing segmental information, by employing tonal finals or
tonal syllables as recognition units, can significantly improve Mandarin tone
recognition. Language models are helpful when tonal syllables are used as
recognition units, but not helpful when tones are recognition units. Finally,
Mandarin tone recognition can benefit from English phoneme recognition by
combining the two tasks in fine-tuning wav2vec 2.0.
- Abstract(参考訳): 自動音声認識に成功しているCTCを用いた微調整wav2vec 2.0による上顎骨の自動認識の改善の試みを報告する。
本手法は,音節,音調,ピッチアクセントの自動認識における最先端性の向上を実証する。
声調最終音や声調音節を認識単位としてセグメント情報を利用することで、マンダリン音調認識を大幅に改善することができる。
言語モデルは、音節を認識単位として使用する場合に役立つが、音調が認識単位である場合には役に立たない。
最後に、mandarin tone recognitionは、wav2vec 2.0の微調整における2つのタスクを組み合わせることで、英語音素認識の恩恵を受けることができる。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition [27.58390468474957]
音声-視覚音声認識(AV-CPL)のための連続擬似ラベリングを提案する。
AV-CPLは、ラベル付きビデオとラベルなしビデオの組み合わせに基づいて、音声視覚音声認識モデルを訓練する半教師付き手法である。
提案手法は教師付きトレーニングと擬似ラベル生成の両方に同じ音声・視覚モデルを使用し,擬似ラベル生成のための外部音声認識モデルの必要性を緩和する。
論文 参考訳(メタデータ) (2023-09-29T16:57:21Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Improving Rare Words Recognition through Homophone Extension and Unified
Writing for Low-resource Cantonese Speech Recognition [36.10245119706219]
ホモフォン文字は、マンダリンやカントン語のような音節ベースの言語で一般的である。
本稿では,ビーム探索復号化プロセスにホモフォン語彙の人間の知識を統合するための新しいホモホン拡張手法を提案する。
また、カントン文字の変種をマージする統一的な自動記述法を提案する。
論文 参考訳(メタデータ) (2023-02-02T02:46:32Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Deep LSTM Spoken Term Detection using Wav2Vec 2.0 Recognizer [0.0]
本稿では,DNN-HMMハイブリッドASRの従来の発音語彙に含まれる知識を,グラフベースのWav2Vecの文脈に転送するブートストラップ手法について述べる。
提案手法は、DNN-HMMハイブリッドASRと音素認識器の組み合わせにより、英語とチェコ語の両方のMALACHデータに対する大きなマージンで、これまで公表されていたシステムより優れている。
論文 参考訳(メタデータ) (2022-10-21T11:26:59Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - The Role of Phonetic Units in Speech Emotion Recognition [22.64187265473794]
本稿では,Wav2vec 2.0を用いた感情依存音声認識による感情認識手法を提案する。
音素モデル、幅広い音韻クラス、音節のモデルは全て、発話モデルを大幅に上回る。
Wav2vec 2.0は音素よりも粗い音素や大きい音素を認識するように微調整できる。
論文 参考訳(メタデータ) (2021-08-02T19:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。