論文の概要: Analysis and Evaluation of Synthetic Data Generation in Speech Dysfluency Detection
- arxiv url: http://arxiv.org/abs/2505.22029v1
- Date: Wed, 28 May 2025 06:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.454323
- Title: Analysis and Evaluation of Synthetic Data Generation in Speech Dysfluency Detection
- Title(参考訳): 音声障害検出における合成データ生成の解析と評価
- Authors: Jinming Zhang, Xuanru Zhou, Jiachen Lian, Shuhe Li, William Li, Zoe Ezzes, Rian Bogley, Lisa Wauters, Zachary Miller, Jet Vonk, Brittany Morin, Maria Gorno-Tempini, Gopala Anumanchipalli,
- Abstract要約: 発声障害の検出は臨床診断と言語評価に不可欠である。
このデータセットは、単語レベルと音素レベルの両方にまたがる11のディスフルエンシカテゴリをキャプチャする。
このリソースを基盤として、エンド・ツー・エンドのディフルエンシ検出フレームワークを改善します。
- 参考スコア(独自算出の注目度): 5.95376852691752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech dysfluency detection is crucial for clinical diagnosis and language assessment, but existing methods are limited by the scarcity of high-quality annotated data. Although recent advances in TTS model have enabled synthetic dysfluency generation, existing synthetic datasets suffer from unnatural prosody and limited contextual diversity. To address these limitations, we propose LLM-Dys -- the most comprehensive dysfluent speech corpus with LLM-enhanced dysfluency simulation. This dataset captures 11 dysfluency categories spanning both word and phoneme levels. Building upon this resource, we improve an end-to-end dysfluency detection framework. Experimental validation demonstrates state-of-the-art performance. All data, models, and code are open-sourced at https://github.com/Berkeley-Speech-Group/LLM-Dys.
- Abstract(参考訳): 音声のディフルエンシ検出は臨床診断や言語評価に不可欠であるが、既存の手法は高品質な注釈付きデータの不足によって制限されている。
TTSモデルの最近の進歩により合成ジフルエンシ生成が可能になったが、既存の合成データセットは不自然な韻律と限られた文脈の多様性に悩まされている。
これらの制約に対処するため,LLM強化ディフルエンシシミュレーションを用いた最も包括的なディフルエンシ音声コーパスであるLLM-Dysを提案する。
このデータセットは、単語レベルと音素レベルの両方にまたがる11のディスフルエンシカテゴリをキャプチャする。
このリソースを基盤として、エンド・ツー・エンドのディフルエンシ検出フレームワークを改善します。
実験的な検証は最先端のパフォーマンスを示す。
すべてのデータ、モデル、コードはhttps://github.com/Berkeley-Speech-Group/LLM-Dysでオープンソース化されている。
関連論文リスト
- Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection [5.512072120303165]
Dysfluent-WFSTはゼロショットデコーダで、音素を同時に書き起こし、逆流を検出する。
模擬および実音声データにおける音素誤り率とディフルエンシ検出の両面での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T08:02:50Z) - Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。
LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。
鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文 参考訳(メタデータ) (2025-02-09T16:43:32Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [37.54523122932728]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
本稿では,非教師なし文の埋め込みを改善するために,ガウス型勾配支援コントラスト文埋め込み(GCSE)モデルを提案する。
実験結果から,本手法は意味的テキスト類似性タスクにおける最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Artificial Disfluency Detection, Uh No, Disfluency Generation for the
Masses [0.0]
本研究は,流布テキストから人工的不一致を自動的に生成する手法である LARD を提案する。
LARDは、reparandum/interregnumアノテーションスキームに基づいて、様々な種類の分散(繰り返し、置換、再起動)をシミュレートすることができる。
提案手法はフロートテキストのみを必要とするため,アノテートされた非フロートデータの要求を回避して,直接トレーニングに使用することができる。
論文 参考訳(メタデータ) (2022-11-16T22:00:02Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。