論文の概要: BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings
- arxiv url: http://arxiv.org/abs/2509.15001v1
- Date: Thu, 18 Sep 2025 14:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.266922
- Title: BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings
- Title(参考訳): BabyHuBERT:子供中心の長期録音におけるセグメンテーション話者のための多言語自己指導型学習
- Authors: Théo Charlot, Tarek Kunze, Maxime Poli, Alejandrina Cristia, Emmanuel Dupoux, Marvin Lavechin,
- Abstract要約: BabyHuBERTは、多言語児中心の長文記録の13,000時間で訓練された最初の自己教師型音声表現モデルである。
BabyHuBERTは6つの多様なデータセットで52.1%から74.4%までF1スコアを達成した。
コードとモデルを共有することで、BabyHuBERTは児童音声研究の基礎モデルとして機能する。
- 参考スコア(独自算出の注目度): 44.806956847429014
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Child-centered long-form recordings are essential for studying early language development, but existing speech models trained on clean adult data perform poorly due to acoustic and linguistic differences. We introduce BabyHuBERT, the first self-supervised speech representation model trained on 13,000 hours of multilingual child-centered long-form recordings spanning over 40 languages. We evaluate BabyHuBERT on speaker segmentation, identifying when target children speak versus female adults, male adults, or other children -- a fundamental preprocessing step for analyzing naturalistic language experiences. BabyHuBERT achieves F1-scores from 52.1% to 74.4% across six diverse datasets, consistently outperforming W2V2-LL4300 (trained on English long-forms) and standard HuBERT (trained on clean adult speech). Notable improvements include 13.2 absolute F1 points over HuBERT on Vanuatu and 15.9 points on Solomon Islands corpora, demonstrating effectiveness on underrepresented languages. By sharing code and models, BabyHuBERT serves as a foundation model for child speech research, enabling fine-tuning on diverse downstream tasks.
- Abstract(参考訳): 幼児中心の長期記録は早期言語発達研究に不可欠であるが, クリーンアダルトデータに基づいて訓練された既存の音声モデルは, 音響的, 言語的差異により, 不十分に機能する。
BabyHuBERTは,40言語にまたがる多言語児中心のロングフォーム記録の13,000時間で訓練された,初めての自己教師型音声表現モデルである。
本研究では, 対象児が成人女性, 成人男性, その他の子どもといつ話すかを, 話者セグメンテーションに基づくBabyHuBERTの評価を行った。
BabyHuBERTは、6つの多様なデータセットで52.1%から74.4%までのF1スコアを達成しており、一貫してW2V2-LL4300(英語版)と標準のHuBERT(英語版)を上回っている。
顕著な改良点としては、バヌアツ島のユベルト島に13.2点、ソロモン諸島のコーパスに15.9点の絶対F1点がある。
コードとモデルを共有することで、BabyHuBERTは児童音声研究の基礎モデルとして機能し、さまざまな下流タスクの微調整を可能にする。
関連論文リスト
- Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech [27.60599947546406]
本稿では,PFSTARとCMU Kidsデータセットを用いて,4種類のWav2Vec2変異体を詳細に解析する。
その結果,早期層はより深い層よりも話者固有の手がかりを効果的に捉えていることがわかった。
PCAの適用により、分類がさらに改善され、冗長性が低減され、最も情報性の高いコンポーネントが強調される。
論文 参考訳(メタデータ) (2025-08-14T04:11:44Z) - Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning [9.670752318129326]
まず, フランス語音声における音素認識に適応したwav2vec 2.0, HuBERT, WavLMモデルを比較した。
次に,子音の微調整中に変圧器ブロックを解凍することで適応する。
We show that WavLM base+ is more robust to various reading task and noise levels。
論文 参考訳(メタデータ) (2025-03-06T18:57:16Z) - AfriHuBERT: A self-supervised speech representation model for African languages [44.722780475475915]
AfriHuBERTは、147言語で事前訓練された、コンパクトな自己教師付き学習(SSL)モデルであるmHuBERT-147の拡張である。
mHuBERT-147は16のアフリカの言語をカバーしていたが、様々な情報源から10K時間以上の音声データを事前学習することで1,226に拡張した。
音声言語識別(SLID)と音声認識(ASR)の2つの重要なタスクについてAfriHuBERTを評価する。
SLIDは3.6%, 平均単語誤り率(WER)は2.1%, 平均単語誤り率(WER)はmHuBERT-147。
論文 参考訳(メタデータ) (2024-09-30T11:28:33Z) - A systematic investigation of learnability from single child linguistic input [12.279543223376935]
言語モデル(LM)は言語的に一貫性のあるテキストを生成するのに顕著な能力を示した。
しかし、これらのモデルのトレーニングデータと、子供が受ける言語的入力との間には、大きなギャップがある。
本研究は, 一人の子どもの言語入力のサブセットに基づいて, LMを訓練することに焦点を当てた。
論文 参考訳(メタデータ) (2024-02-12T18:58:58Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。