論文の概要: Automatic classification of stop realisation with wav2vec2.0
- arxiv url: http://arxiv.org/abs/2505.23688v2
- Date: Fri, 30 May 2025 03:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.163002
- Title: Automatic classification of stop realisation with wav2vec2.0
- Title(参考訳): wav2vec2.0による停止実現の自動分類
- Authors: James Tanner, Morgan Sonderegger, Jane Stuart-Smith, Jeff Mielke, Tyler Kendall,
- Abstract要約: wav2vec2.0モデルは英語と日本語の両方で高い精度でバースト存在を自動的に分類する訓練が可能であることを示す。
その結果,音声コーパスデータの自動アノテーションおよび処理ツールとして,事前学習音声モデルの可能性を実証した。
- 参考スコア(独自算出の注目度): 0.24466725954625887
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern phonetic research regularly makes use of automatic tools for the annotation of speech data, however few tools exist for the annotation of many variable phonetic phenomena. At the same time, pre-trained self-supervised models, such as wav2vec2.0, have been shown to perform well at speech classification tasks and latently encode fine-grained phonetic information. We demonstrate that wav2vec2.0 models can be trained to automatically classify stop burst presence with high accuracy in both English and Japanese, robust across both finely-curated and unprepared speech corpora. Patterns of variability in stop realisation are replicated with the automatic annotations, and closely follow those of manual annotations. These results demonstrate the potential of pre-trained speech models as tools for the automatic annotation and processing of speech corpus data, enabling researchers to 'scale-up' the scope of phonetic research with relative ease.
- Abstract(参考訳): 現代音声学研究は、音声データのアノテーションに自動ツールを定期的に利用しているが、多くの可変音韻現象のアノテーションにはツールがほとんど存在しない。
同時に、wav2vec2.0のような事前訓練された自己教師型モデルは、音声分類タスクにおいて良好に機能し、より詳細な音声情報を潜時符号化することが示されている。
音声コーパスの微調整と未調整の両方で頑健な英語と日本語の両方で, バーストの有無を高精度に分類するために, wav2vec2.0モデルをトレーニングできることを実証した。
停止実現における変数のパターンは、自動アノテーションで複製され、手動アノテーションのパターンに忠実に従う。
これらの結果は、音声コーパスデータの自動アノテーションと処理のためのツールとして、事前学習された音声モデルの可能性を示し、研究者は比較的容易な音声研究の範囲を「スケールアップ」することができる。
関連論文リスト
- Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。
本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文 参考訳(メタデータ) (2025-05-05T12:36:03Z) - Normalization through Fine-tuning: Understanding Wav2vec 2.0 Embeddings for Phonetic Analysis [32.14451400240806]
本研究では,トランスモデル,特にwav2vec 2.0における正規化過程について検討した。
We found that fine-tuning wav2vec 2.0 is effective to be speechtic normalization by selectively suppressing task-rerelevant information。
これらの知見は, 音声モデルにおいて音素正規化が柔軟に達成されるか, 人間の音声知覚においてどのように実現されるのか, 新たな知見を提供する。
論文 参考訳(メタデータ) (2025-03-04T15:28:10Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Analyzing Robustness of End-to-End Neural Models for Automatic Speech
Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。
本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文 参考訳(メタデータ) (2022-08-17T20:00:54Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - On Scaling Contrastive Representations for Low-Resource Speech
Recognition [12.447872366013224]
計算要求のwav2vec 2.0フレームワークから,固定表現に対して最先端の音声認識器を訓練する。
極端に低リソース環境では、wav2vec 2.0は前者よりも劣っている。
論文 参考訳(メタデータ) (2021-02-01T13:58:02Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。