論文の概要: KidSpeak: A General Multi-purpose LLM for Kids' Speech Recognition and Screening
- arxiv url: http://arxiv.org/abs/2512.05994v1
- Date: Mon, 01 Dec 2025 00:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.129001
- Title: KidSpeak: A General Multi-purpose LLM for Kids' Speech Recognition and Screening
- Title(参考訳): KidSpeak: 子どもの音声認識とスクリーニングのための汎用LLM
- Authors: Rohan Sharma, Dancheng Liu, Jingchen Sun, Shijie Zhou, Jiayu Qin, Jinjun Xiong, Changyou Chen,
- Abstract要約: KidSpeakは、子どもの発話パターンに合わせて、生成的および差別的なタスクを同時に行うことができる、スピーチ強化基礎モデルである。
本稿では,フレキシブル・アンド・オートマチック・スピーチ・アリグナー(FASA)を提案し,その手法を利用して高品質なデータセットを構築し,訓練と評価を行う。
本発明の新しいアライメントツールは、ノイズの多いデータから子どもの音声の質を著しく向上させ、人間のアノテーションと比較してデータ品質を13.6倍に向上させる。
- 参考スコア(独自算出の注目度): 29.54910094759367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of conversational and diffusion-based AI, there is a growing adoption of AI in educational services, ranging from grading and assessment tools to personalized learning systems that provide targeted support for students. However, this adaptability has yet to fully extend to the domain of children's speech, where existing models often fail due to their reliance on datasets designed for clear, articulate adult speech. Children, particularly those in early developmental stages or with speech and language pathologies, present unique challenges that current AI models and datasets are ill-equipped to handle. To address this, we introduce KidSpeak, a multi-task speech-enhanced Foundation Model capable of both generative and discriminative tasks specifically tailored to children's speech patterns. Our framework employs a two-stage training process that incorporates phonetic knowledge into the speech encoder, achieving an average accuracy of 87% across four separate tasks. Furthermore, recognizing the limitations of scalable human annotation and existing speech alignment tools, we propose the Flexible and Automatic Speech Aligner (FASA) and leverage the method to construct high quality datasets for training and evaluation. This novel alignment tool significantly improves the quality of aligned children's speech from noisy data, enhancing data quality by 13.6x compared to human annotations, as demonstrated on the CHILDES dataset. To the best of our knowledge, KidSpeak and FASA represent the first comprehensive solution designed for speech and language therapy in children, offering both a multi-purpose speech LLM and a robust alignment tool.
- Abstract(参考訳): 会話型および拡散型AIの急速な進歩により、学位取得や評価ツールから、学生を対象にしたサポートを提供するパーソナライズされた学習システムまで、教育サービスにおけるAIの採用が増加している。
しかし、この適応性はまだ子供向け音声の領域に完全には及ばず、既存のモデルは、明瞭で明瞭な成人向け音声に設計されたデータセットに依存するため、しばしば失敗する。
子どもたち、特に初期の発達段階の子供、あるいは言語や言語病理を持つ子供たちは、現在のAIモデルとデータセットが扱いに不適当である、ユニークな課題を提示する。
そこで本稿では,子どもの発話パターンに合わせて,生成的および識別的タスクを同時に行うマルチタスク音声強調基盤モデルであるKidSpeakを紹介する。
本フレームワークでは,音声の知識を音声エンコーダに組み込んだ2段階の学習プロセスを用いて,4つのタスクで平均87%の精度を実現している。
さらに、スケーラブルな人間のアノテーションや既存の音声アライメントツールの限界を認識し、フレキシブル・アンド・オートマチック・音声アライメント(FASA)を提案し、高品質なデータセットを構築して訓練と評価を行う。
この新しいアライメントツールは、ChiLDESデータセットで示されるように、ノイズの多いデータから子どもの発話の質を著しく改善し、人間のアノテーションと比べてデータ品質を13.6倍に向上させる。
私たちの知る限り、KidSpeakとFASAは、多目的言語LLMとロバストアライメントツールの両方を提供する、小児における言語と言語治療のための最初の包括的なソリューションである。
関連論文リスト
- Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - Speech Unlearning [14.755831733659699]
音声タスクのための機械学習を導入し,新しい研究課題について紹介する。
本研究の目的は、訓練された音声モデルから特定のデータの影響を、完全に再訓練することなく効率的に効果的に除去することである。
プライバシー保護、時代遅れまたはノイズの多いデータの削除、バイアス軽減に重要な応用がある。
論文 参考訳(メタデータ) (2025-06-01T06:04:16Z) - An End-to-End Approach for Child Reading Assessment in the Xhosa Language [0.3579433677269426]
本研究は, 南アフリカで話されている言語であるXhosaに着目し, 子どもの音声認識能力を向上させることを目的とした。
本稿では,Xhosaにおける児童音声サンプルからなる新しいデータセットを提案する。
その結果、これらのモデルの性能は、利用可能なトレーニングデータの量とバランスに大きく影響されることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T00:59:58Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - FASA: a Flexible and Automatic Speech Aligner for Extracting High-quality Aligned Children Speech Data [22.933382649048113]
そこで我々は,高品質な子どもの音声データを抽出するフレキシブルかつ自動的な音声整列器として,新しい強制調整ツールFASAを提案する。
CHILDESデータセットでの使用例を示し、FASAが人間のアノテーションよりも13.6$times$でデータ品質を改善することを示す。
論文 参考訳(メタデータ) (2024-06-25T20:37:16Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。