論文の概要: Speech Separation for Hearing-Impaired Children in the Classroom
- arxiv url: http://arxiv.org/abs/2511.07677v1
- Date: Wed, 12 Nov 2025 01:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.421825
- Title: Speech Separation for Hearing-Impaired Children in the Classroom
- Title(参考訳): 教室における難聴児の音声分離
- Authors: Feyisayo Olalere, Kiki van der Heijden, H. Christiaan Stronks, Jeroen Briaire, Johan H. M. Frijns, Yagmur Güçlütürk,
- Abstract要約: 補助装置のための音声分離モデルは、単純化された低残響条件下で成人の声を用いて開発された。
これは、分離手段を弱める子どもの声のスペクトル的類似性の高さと、実際の教室の音響的複雑さを見越すものである。
両耳補聴器や人工内耳のリアルタイム展開に適した,小型で低レイテンシなマルチチャネルアーキテクチャを用いて,このギャップに対処する。
- 参考スコア(独自算出の注目度): 1.1972688817712231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classroom environments are particularly challenging for children with hearing impairments, where background noise, multiple talkers, and reverberation degrade speech perception. These difficulties are greater for children than adults, yet most deep learning speech separation models for assistive devices are developed using adult voices in simplified, low-reverberation conditions. This overlooks both the higher spectral similarity of children's voices, which weakens separation cues, and the acoustic complexity of real classrooms. We address this gap using MIMO-TasNet, a compact, low-latency, multi-channel architecture suited for real-time deployment in bilateral hearing aids or cochlear implants. We simulated naturalistic classroom scenes with moving child-child and child-adult talker pairs under varying noise and distance conditions. Training strategies tested how well the model adapts to children's speech through spatial cues. Models trained on adult speech, classroom data, and finetuned variants were compared to assess data-efficient adaptation. Results show that adult-trained models perform well in clean scenes, but classroom-specific training greatly improves separation quality. Finetuning with only half the classroom data achieved comparable gains, confirming efficient transfer learning. Training with diffuse babble noise further enhanced robustness, and the model preserved spatial awareness while generalizing to unseen distances. These findings demonstrate that spatially aware architectures combined with targeted adaptation can improve speech accessibility for children in noisy classrooms, supporting future on-device assistive technologies.
- Abstract(参考訳): 教室環境は、背景雑音、複数の話者、残響が音声知覚を劣化させる聴覚障害を持つ子供にとって特に困難である。
これらの困難は、成人よりも子供にとって大きいが、補助装置のための深層学習音声分離モデルは、単純化された低残響条件下で成人の声を用いて開発されている。
これは、分離手段を弱める子どもの声のスペクトル的類似性の高さと、実際の教室の音響的複雑さの両方を見落としている。
両耳補聴器や人工内耳のリアルタイム展開に適した,小型で低レイテンシなマルチチャネルアーキテクチャであるMIMO-TasNetを用いて,このギャップに対処する。
騒音と距離の異なる環境下で,移動型子育てと子育て型話者ペアによる自然主義的な教室シーンのシミュレートを行った。
トレーニング戦略は、モデルが空間的手がかりを通して子供のスピーチにどのように適応するかをテストした。
成人音声, 教室データ, 微調整モデルを比較し, 適応性の評価を行った。
その結果, クリーンな場面では, 成人訓練モデルの性能は良好であったが, 教室固有のトレーニングは, 分離品質を大幅に向上させることがわかった。
教室のデータの半分しかないファインタニングは、効率の良いトランスファー学習を確実にすることで、同等の利益を得た。
拡散バブルノイズによるトレーニングにより、さらに堅牢性が向上し、モデルは、見えない距離に一般化しながら、空間認識を保存した。
これらの結果から,空間認識型アーキテクチャとターゲット適応が組み合わさって,騒音の多い教室における子どもの音声アクセシビリティを向上させることが示唆された。
関連論文リスト
- Teaching Audio Models to Reason: A Unified Framework for Source- and Layer-wise Distillation [52.537908557508324]
本研究では,高容量テキストモデルから学生音声モデルへの推論能力を伝達するための統合知識蒸留フレームワークを提案する。
本手法では, ソースワイド蒸留と層ワイド蒸留という2つの重要な次元を導入する。
実験結果から,音声推論性能は著しく向上した。
論文 参考訳(メタデータ) (2025-09-23T02:58:16Z) - Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - Multi-Stage Speaker Diarization for Noisy Classrooms [1.4549461207028445]
本研究では,NvidiaのNeMoダイアリゼーションパイプラインを用いた多段ダイアリゼーションモデルの有効性を検討した。
ダイアリゼーション精度に対する聴覚の影響を評価し,様々な音声活動検出モデルを比較した。
また、フレームレベルのVAD予測と自動音声認識(ASR)ワードレベルのタイムスタンプを統合するハイブリッドVAD手法についても検討する。
論文 参考訳(メタデータ) (2025-05-16T05:35:06Z) - Multimodal Input Aids a Bayesian Model of Phonetic Learning [0.6827423171182154]
本稿では,既存の音声コーパスのための高品質な音声合成ビデオを作成する方法を提案する。
我々の学習モデルは、オーディオ視覚入力の訓練と試験の両方を行うと、音素識別電池の8.1%の相対的な改善が達成される。
視覚情報は特にノイズの多いオーディオ環境において有益である。
論文 参考訳(メタデータ) (2024-07-22T19:00:11Z) - A comparative analysis between Conformer-Transducer, Whisper, and
wav2vec2 for improving the child speech recognition [2.965450563218781]
幼児音声におけるコンフォーマー・トランスデューサモデルの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。
また、Whisper と wav2vec2 を異なる子音声データセットに適応させる。
論文 参考訳(メタデータ) (2023-11-07T19:32:48Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation [52.550684208734324]
音物体の視覚的接地と音声-視覚的音分離を共同学習できる循環的共学習パラダイムを提案する。
本稿では,提案フレームワークが両タスクの最近のアプローチを上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-05T17:30:41Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。