論文の概要: Can large audio language models understand child stuttering speech? speech summarization, and source separation
- arxiv url: http://arxiv.org/abs/2510.20850v1
- Date: Tue, 21 Oct 2025 18:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.268753
- Title: Can large audio language models understand child stuttering speech? speech summarization, and source separation
- Title(参考訳): 大規模音声言語モデルでは子どもの発声の理解は可能か? : 音声要約と音源分離
- Authors: Chibuzor Okocha, Maya Bakri, Christan Grant,
- Abstract要約: 子どもの発話は、音響、韻律、言語発達における大人のスピーチとは異なる(反復、延長、ブロック)
近年の大規模音声言語モデル (LALM) は, クロスモーダルな音声理解を強く示している。
我々は,現在あるLALMを,インタビュー(混合話者)と読書課題(単一子ども)の2つの設定で評価した。
- 参考スコア(独自算出の注目度): 3.2684800403907506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Child speech differs from adult speech in acoustics, prosody, and language development, and disfluencies (repetitions, prolongations, blocks) further challenge Automatic Speech Recognition (ASR) and downstream Natural Language Processing (NLP). Recent large audio-language models (LALMs) demonstrate strong cross-modal audio understanding; however, their behavior in disfluent child speech remains underexplored. We evaluate several state-of-the-art LALMs in two settings: an interview (mixed speakers) and a reading task (single child). The tasks are (i) single-channel source separation to isolate the child and (ii) child-only summarization that preserves clinically relevant disfluencies and avoids adult-speech leakage. Evaluation combines Large Language Model (LLM) as a judge, human expert ratings, and BERTScore (F1), and we report agreement between models and between models and humans to assess reliability. Our findings delineate the conditions under which LALMs produce faithful child-only summaries from mixed audio and where they fail, offering practical guidance for clinical and educational deployments. We provide prompts and evaluation scripts to support replication.
- Abstract(参考訳): 子話はアコースティックス、韻律、言語発達における大人のスピーチと異なり、また(繰り返し、延長、ブロック)、さらに自動音声認識(ASR)や下流自然言語処理(NLP)に挑戦する。
近年の大規模音声言語モデル (LALM) では, 言語間音声の理解が強くなっているが, 未熟児の発話における行動は未解明のままである。
本研究では,現在最先端のLALMを,インタビュー(混合話者)と読書タスク(単子)の2つの設定で評価した。
タスクは
(i)子と子を分離する単一チャネルソース分離
二 小児のみの要約で、臨床的に関係のある相違を保ち、成人音声の漏洩を避けること。
評価は,大言語モデル(LLM)を判断,人的専門家評価,BERTScore(F1)と組み合わせ,モデル間およびモデルと人間間の合意を報告し,信頼性を評価する。
本研究は、LALMが混合音声から忠実な子のみのサマリーを生み出す状況と、それらが失敗する状況を明らかにし、臨床および教育展開のための実践的なガイダンスを提供する。
レプリケーションをサポートするプロンプトと評価スクリプトを提供する。
関連論文リスト
- Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer
Learning [3.5032870024762386]
本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。
このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。
実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
論文 参考訳(メタデータ) (2023-11-07T19:31:44Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Learning to Understand Child-directed and Adult-directed Speech [18.29692441616062]
人間の言語習得研究は、児童指向の音声が言語学習者に役立つことを示している。
成人指向音声(ADS)と子ども指向音声(CDS)で訓練されたモデルのタスク性能の比較を行った。
CDSが学習の初期段階で有効であることを示す指標が得られたが、最終的には、ADSでトレーニングされたモデルは、同等のタスクパフォーマンスに達し、より一般化される。
論文 参考訳(メタデータ) (2020-05-06T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。