論文の概要: Mind the Shift: Using Delta SSL Embeddings to Enhance Child ASR
- arxiv url: http://arxiv.org/abs/2601.20142v1
- Date: Wed, 28 Jan 2026 00:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.706442
- Title: Mind the Shift: Using Delta SSL Embeddings to Enhance Child ASR
- Title(参考訳): Delta SSLの埋め込みを使って子どものASRを強化
- Authors: Zilai Wang, Natarajan Balaji Shankar, Kaiyuan Zhang, Zihan Wang, Abeer Alwan,
- Abstract要約: 自己教師付き学習(SSL)モデルは、多くの音声タスクで印象的な結果を得た。
子音声における微調整SSLモデルは、表現空間のシフトを誘導する。
デルタ埋め込みはタスク固有の情報をエンコードし、別のSSLモデルから細分化された機能を補完することを示す。
- 参考スコア(独自算出の注目度): 25.862953091027887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) models have achieved impressive results across many speech tasks, yet child automatic speech recognition (ASR) remains challenging due to limited data and pretraining domain mismatch. Fine-tuning SSL models on child speech induces shifts in the representation space. We hypothesize that delta SSL embeddings, defined as the differences between embeddings from a finetuned model and those from its pretrained counterpart, encode task-specific information that complements finetuned features from another SSL model. We evaluate multiple fusion strategies on the MyST childrens corpus using different models. Results show that delta embedding fusion with WavLM yields up to a 10 percent relative WER reduction for HuBERT and a 4.4 percent reduction for W2V2, compared to finetuned embedding fusion. Notably, fusing WavLM with delta W2V2 embeddings achieves a WER of 9.64, setting a new state of the art among SSL models on the MyST corpus. These findings demonstrate the effectiveness of delta embeddings and highlight feature fusion as a promising direction for advancing child ASR.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルは、多くの音声タスクにおいて印象的な結果を得たが、制限されたデータと事前学習ドメインミスマッチのため、児童自動音声認識(ASR)は依然として困難である。
子音声における微調整SSLモデルは、表現空間のシフトを誘導する。
デルタSSL埋め込みは、微調整されたモデルからの埋め込みと事前訓練されたモデルからの埋め込みとの違いとして定義され、別のSSLモデルからの微調整された機能を補完するタスク固有の情報をエンコードする、という仮説を立てる。
異なるモデルを用いてMyST児コーパスの融合戦略を評価した。
その結果, デルタ埋込み核融合は, 微細埋込み核融合と比較して, HuBERTでは10%, W2V2では4.4%減少することがわかった。
特に、WavLMをデルタW2V2埋め込みで融合させることでWERは9.64となり、MySTコーパス上のSSLモデルに新たな最先端技術が設定された。
以上の結果から, デルタ埋め込みの有効性が示され, 小児ASRの進行に有望な方向としての特徴融合が示唆された。
関連論文リスト
- Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech? [43.31597557333867]
本研究では、最先端SSL事前訓練モデルから抽出した階層的特徴が、ゼロショットシナリオにおける子供の発話におけるASRの性能向上に有効であることを示す。
分析では、ゼロショットシナリオにおいて、子どもの発話におけるASRパフォーマンスを向上させる最も効果的なレイヤを特定した。
論文 参考訳(メタデータ) (2025-08-28T21:32:36Z) - Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - Erasing the Bias: Fine-Tuning Foundation Models for Semi-Supervised Learning [4.137391543972184]
半教師付き学習(SSL)は目覚ましい進歩をみせており、多くの方法のバリエーションをもたらしている。
本稿では,FinSSLという新しいSSLアプローチを提案する。
我々は、FineSSLが複数のベンチマークデータセットにSSLの新たな状態を設定し、トレーニングコストを6倍以上削減し、さまざまな微調整と現代的なSSLアルゴリズムをシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-05-20T03:33:12Z) - Compact Speech Translation Models via Discrete Speech Units Pretraining [75.27125825975858]
本手法は,SSSモデルから抽出した離散音声単位(DSU)に基づく。
本手法では, コンパクト化に加えて, 低リソース設定にも適用できるため, 文字起こしは不要である。
論文 参考訳(メタデータ) (2024-02-29T16:36:51Z) - Elastic Weight Consolidation Improves the Robustness of Self-Supervised
Learning Methods under Transfer [4.2141621237414615]
自己教師付き表現学習(SSL)手法は、下流タスクの微調整に有効なラベルなし初期条件を提供する。
我々はベイジアン連続学習のレンズの下でSSLの微調整を再解釈し、Elastic Weight Consolidation (EWC)フレームワークによる正規化を検討する。
初期SSLバックボーンに対する自己正規化は、ウォーターバードの最低サブグループ性能を5%改善し、Celeb-Aを2%向上させることを示した。
論文 参考訳(メタデータ) (2022-10-28T19:00:25Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - A Strong Baseline for Semi-Supervised Incremental Few-Shot Learning [54.617688468341704]
少ないショット学習は、限られたトレーニングサンプルを持つ新しいクラスに一般化するモデルを学ぶことを目的としている。
本研究では,(1)信頼できない擬似ラベルによる基本クラスと新クラスのあいまいさを緩和する高度に設計されたメタトレーニングアルゴリズム,(2)ラベルの少ないデータとラベルなしデータを用いて基礎知識を保ちながら,新クラスの識別的特徴を学習するモデル適応機構を提案する。
論文 参考訳(メタデータ) (2021-10-21T13:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。