論文の概要: TICL+: A Case Study On Speech In-Context Learning for Children's Speech Recognition
- arxiv url: http://arxiv.org/abs/2512.18263v1
- Date: Sat, 20 Dec 2025 08:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.262256
- Title: TICL+: A Case Study On Speech In-Context Learning for Children's Speech Recognition
- Title(参考訳): TICL+:子どもの音声認識における音声インテクスト学習の事例研究
- Authors: Haolong Zheng, Yekaterina Yegorova, Mark Hasegawa-Johnson,
- Abstract要約: 音声基礎モデルは、音声インテクスト学習(SICL)を通してこれらの課題に対処できる
我々は,既存の検索手法であるテキスト埋め込みKNN for SICL (TICL)を拡張し,TICL+を作成する音響再構成ステップを導入する。
4人の子どもの音声コーパスの実験では、TICL+はゼロショット性能よりも53.3%の単語誤り率の低下を達成している。
- 参考スコア(独自算出の注目度): 27.013776992438086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Children's speech recognition remains challenging due to substantial acoustic and linguistic variability, limited labeled data, and significant differences from adult speech. Speech foundation models can address these challenges through Speech In-Context Learning (SICL), allowing adaptation to new domains without fine-tuning. However, the effectiveness of SICL depends on how in-context examples are selected. We extend an existing retrieval-based method, Text-Embedding KNN for SICL (TICL), introducing an acoustic reranking step to create TICL+. This extension prioritizes examples that are both semantically and acoustically aligned with the test input. Experiments on four children's speech corpora show that TICL+ achieves up to a 53.3% relative word error rate reduction over zero-shot performance and 37.6% over baseline TICL, highlighting the value of combining semantic and acoustic information for robust, scalable ASR in children's speech.
- Abstract(参考訳): 子どもの音声認識は、相当な音響的・言語的多様性、ラベル付きデータに制限があり、成人の音声と大きな違いがあるため、依然として困難である。
音声基礎モデルは、スピーチ・イン・コンテキスト・ラーニング(SICL)を通じてこれらの課題に対処することができる。
しかし、SICLの有効性は、文脈内サンプルの選択方法に依存する。
我々は,既存の検索手法であるテキスト埋め込みKNN for SICL (TICL)を拡張し,TICL+を作成する音響再構成ステップを導入する。
この拡張は、意味的にも音響的にもテスト入力に一致した例を優先する。
4人の子どもの音声コーパスの実験では、TICL+はゼロショット性能よりも53.3%、ベースラインTICLより37.6%の相対的な単語誤り率の低下を達成し、子どものスピーチにおける堅牢でスケーラブルなASRのための意味情報と音響情報の組み合わせの価値を強調した。
関連論文リスト
- TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models [27.013776992438086]
SICL(TICL)のためのテキスト埋め込みKNNを提案する。
提案手法により, 最大84.7%のWER削減率でゼロショット性能を超えることができる。
論文 参考訳(メタデータ) (2025-09-16T17:07:23Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - Can Whisper perform speech-based in-context learning? [15.931776592470895]
本稿では,OpenAIがリリースしたWhisper自動音声認識(ASR)モデルのコンテキスト内学習能力について検討する。
単語誤り率 (WER) を低減できる, テスト時間適応のための新しい音声ベースインコンテキスト学習 (SICL) 手法を提案する。
中国語方言を用いた言語レベルの適応実験により、SICLを孤立語ASRに適用する場合、一貫した相対的なWER削減が達成できることが示された。
論文 参考訳(メタデータ) (2023-09-13T16:46:27Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Learning to Understand Child-directed and Adult-directed Speech [18.29692441616062]
人間の言語習得研究は、児童指向の音声が言語学習者に役立つことを示している。
成人指向音声(ADS)と子ども指向音声(CDS)で訓練されたモデルのタスク性能の比較を行った。
CDSが学習の初期段階で有効であることを示す指標が得られたが、最終的には、ADSでトレーニングされたモデルは、同等のタスクパフォーマンスに達し、より一般化される。
論文 参考訳(メタデータ) (2020-05-06T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。