論文の概要: Exploring Speech Foundation Models for Speaker Diarization in Child-Adult Dyadic Interactions
- arxiv url: http://arxiv.org/abs/2406.07890v1
- Date: Wed, 12 Jun 2024 05:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:15:17.161115
- Title: Exploring Speech Foundation Models for Speaker Diarization in Child-Adult Dyadic Interactions
- Title(参考訳): 子育てダイアライゼーションにおける話者ダイアライゼーションのための音声基礎モデルの検討
- Authors: Anfeng Xu, Kevin Huang, Tiantian Feng, Lue Shen, Helen Tager-Flusberg, Shrikanth Narayanan,
- Abstract要約: 模範音声基礎モデルでは, ダイアリゼーション誤差率と話者融合率を39.5%, 62.3%削減できることを示す。
本研究は, 子どもの発話理解を促進するために, 音声基盤モデルを理解し, 導入するための有望な経路を明らかにするものである。
- 参考スコア(独自算出の注目度): 28.5211771482547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech foundation models, trained on vast datasets, have opened unique opportunities in addressing challenging low-resource speech understanding, such as child speech. In this work, we explore the capabilities of speech foundation models on child-adult speaker diarization. We show that exemplary foundation models can achieve 39.5% and 62.3% relative reductions in Diarization Error Rate and Speaker Confusion Rate, respectively, compared to previous speaker diarization methods. In addition, we benchmark and evaluate the speaker diarization results of the speech foundation models with varying the input audio window size, speaker demographics, and training data ratio. Our results highlight promising pathways for understanding and adopting speech foundation models to facilitate child speech understanding.
- Abstract(参考訳): 膨大なデータセットに基づいて訓練された音声基礎モデルは、子音声のような低リソース音声理解の難しさに対処するユニークな機会を開いた。
本研究では,子育て話者ダイアリゼーションにおける音声基礎モデルの能力について検討する。
本研究では, 従来の話者ダイアリゼーション法と比較して, ダイアリゼーション誤差率と話者融合率を39.5%, 62.3%削減できることを示す。
さらに,音声基礎モデルの話者ダイアリゼーション結果を,入力音声ウィンドウサイズ,話者人口統計,訓練データ比率によって評価し,評価した。
本研究は, 子どもの発話理解を促進するために, 音声基盤モデルを理解し, 導入するための有望な経路を明らかにするものである。
関連論文リスト
- Multimodal Input Aids a Bayesian Model of Phonetic Learning [0.6827423171182154]
本稿では,既存の音声コーパスのための高品質な音声合成ビデオを作成する方法を提案する。
我々の学習モデルは、オーディオ視覚入力の訓練と試験の両方を行うと、音素識別電池の8.1%の相対的な改善が達成される。
視覚情報は特にノイズの多いオーディオ環境において有益である。
論文 参考訳(メタデータ) (2024-07-22T19:00:11Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Improving Children's Speech Recognition by Fine-tuning Self-supervised
Adult Speech Representations [2.2191297646252646]
幼児の音声認識は、包括的音声認識技術を構築する際には不可欠だが、ほとんど見過ごされる領域である。
近年の自己教師型学習の進歩は、このデータ不足の問題を克服する新たな機会を生み出している。
子どもの音声認識のためのモデルを構築するために,自己指導型成人音声表現を活用し,よく知られた幼児音声コーパスを3つ利用した。
論文 参考訳(メタデータ) (2022-11-14T22:03:36Z) - A Data-Driven Investigation of Noise-Adaptive Utterance Generation with
Linguistic Modification [25.082714256583422]
騒々しい環境では、スピーチは人間にとって理解しにくい。
通常の聴覚を持つ母語話者が知覚するバブルノイズにおける900パラフレーズのデータセットを作成する。
その結果, SNR -5 dBでは, パラフレーズの選択が33%向上することが判明した。
論文 参考訳(メタデータ) (2022-10-19T02:20:17Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Senone-aware Adversarial Multi-task Training for Unsupervised Child to
Adult Speech Adaptation [26.065719754453823]
本研究では,成人音声と幼児音声のセノンレベルにおける音響ミスマッチを最小限に抑える特徴適応手法を提案する。
提案手法は, 児童音声認識, 児童発音評価, 児童流動度スコア予測の3つのタスクで検証した。
論文 参考訳(メタデータ) (2021-02-23T04:49:27Z) - Towards Modelling Coherence in Spoken Discourse [48.80477600384429]
話し言葉におけるコヒーレンスは、音声の韻律的および音響的パターンに依存している。
音声に基づくコヒーレンスモデルを用いて音声対話におけるコヒーレンスをモデル化する。
論文 参考訳(メタデータ) (2020-12-31T20:18:29Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Learning to Understand Child-directed and Adult-directed Speech [18.29692441616062]
人間の言語習得研究は、児童指向の音声が言語学習者に役立つことを示している。
成人指向音声(ADS)と子ども指向音声(CDS)で訓練されたモデルのタスク性能の比較を行った。
CDSが学習の初期段階で有効であることを示す指標が得られたが、最終的には、ADSでトレーニングされたモデルは、同等のタスクパフォーマンスに達し、より一般化される。
論文 参考訳(メタデータ) (2020-05-06T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。