論文の概要: Self-supervised learning of speech representations with Dutch archival data
- arxiv url: http://arxiv.org/abs/2507.04554v1
- Date: Sun, 06 Jul 2025 22:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.233025
- Title: Self-supervised learning of speech representations with Dutch archival data
- Title(参考訳): オランダ語アーカイブデータを用いた音声表現の自己教師付き学習
- Authors: Nik Vaessen, David A. van Leeuwen, Roeland Ordelman,
- Abstract要約: 本稿では,オランダのアーカイブテレビ放送データを用いた音声基礎モデルの自己教師型学習,特にwav2vec 2.0について検討する。
まず,事前学習におけるデータ品質の仮定について検討し,音楽,雑音,話者の重なりがSSL収束および下流微調整性能に与える影響を示す。
最後に, 55k時間アーカイブデータセットを用いたwav2vec 2.0 XLS-Rモデルチェックポイントの事前学習を継続することにより, オランダ語に対する最先端の大規模wav2vec 2.0モデルを実現する。
- 参考スコア(独自算出の注目度): 8.504327926435158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the use of Dutch archival television broadcast data for self-supervised learning of speech foundation models, specifically wav2vec 2.0. We first study data quality assumptions for pre-training, and show how music, noise and speaker overlap affect SSL convergence and downstream fine-tuning performance. Secondly, we explore effectively pre-processing strategies to convert the noisy broadcast dataset into a qualitative dataset for pre-training, by using Whisper and WhisperX., Thirdly, we compare mono-lingual and multi-lingual pre-training with equivalent amounts of data, and show that mono-lingual pre-training is more robust to out-of-domain data. Lastly, we achieve a state-of-the-art LARGE wav2vec 2.0 model for the Dutch language, by a continuation of pre-training a wav2vec 2.0 XLS-R model checkpoint with our 55k hour archival dataset.
- Abstract(参考訳): 本稿では,オランダのアーカイブテレビ放送データを用いた音声基礎モデルの自己教師型学習,特にwav2vec 2.0について検討する。
まず,事前学習におけるデータ品質の仮定について検討し,音楽,雑音,話者の重なりがSSL収束および下流微調整性能に与える影響を示す。
次に、WhisperとWhisperXを用いて、ノイズの多い放送データセットを定性的なデータセットに変換するための効率的な事前処理戦略を検討する。
第三に、単言語および多言語事前学習と等価量のデータを比較し、単言語事前学習がドメイン外のデータに対してより堅牢であることを示す。
最後に,オランダ語に対する最先端のLARGE wav2vec 2.0モデルを,55k時間アーカイブデータセットを用いて,wav2vec 2.0 XLS-Rモデルチェックポイントの事前トレーニングを継続することで実現した。
関連論文リスト
- Automatic Proficiency Assessment in L2 English Learners [51.652753736780205]
英語の第二言語習熟度(L2)は通常、英語の教師や専門家の評価者によって知覚的に評価される。
本稿では, 音声信号と対応文字の双方に対処し, 総合的なL2習熟度評価のための深層学習手法について検討する。
論文 参考訳(メタデータ) (2025-05-05T12:36:03Z) - Mispronunciation detection using self-supervised speech representations [10.010024759851142]
本稿では,第2言語学習者の誤発音検出作業におけるSSLモデルの利用について検討する。
そこで本研究では,1)母国英語データを用いた音声認識モデルの訓練,2)非母国英語データを用いた目標タスクのためのモデルを直接訓練する,という2つのダウンストリームアプローチを比較した。
論文 参考訳(メタデータ) (2023-07-30T21:20:58Z) - Federated Learning for ASR based on Wav2vec 2.0 [4.711492191554342]
自己監督によって事前訓練されたwav2vec 2.0モデルに基づいて,連合学習を用いてASRモデルを訓練する。
実験により、そのようなモデルは言語モデルを用いることなく、公式のTED-Lium 3テストセットで10.92%の単語誤り率が得られることが示された。
また,連合学習への参加による話者のASRパフォーマンスの分析を行った。
論文 参考訳(メタデータ) (2023-02-20T18:36:46Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Deploying self-supervised learning in the wild for hybrid automatic
speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。
我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文 参考訳(メタデータ) (2022-05-17T19:37:40Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Large-Scale Self- and Semi-Supervised Learning for Speech Translation [48.06478781295623]
大規模なLibri-Light音声コーパスとCommonCrawlを用いた言語モデリングを用いて,事前学習と自己学習の両方について検討する。
私たちの実験は、CoVoST 2言語ペアの4つすべてで平均2.6 BLEUで以前の状態よりも改善されました。
論文 参考訳(メタデータ) (2021-04-14T07:44:52Z) - Exploring wav2vec 2.0 on speaker verification and language
identification [9.047596226273495]
Wav2vec 2.0は、音声認識学習のための自己監視フレームワークである。
本稿では,wav2vec 2.0を話者照合と言語識別に拡張する。
話者検証のために、VoxCeleb1データセットで3.61%の新しい最新結果であるEqual Error Rate (EER)を取得します。
言語識別のために、1秒条件で12.02%のEERと、AP17-OLRデータセットの全長条件で3.47%のEERを得る。
論文 参考訳(メタデータ) (2020-12-11T08:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。