論文の概要: SSDM: Scalable Speech Dysfluency Modeling
- arxiv url: http://arxiv.org/abs/2408.16221v3
- Date: Thu, 3 Oct 2024 21:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 04:19:50.141360
- Title: SSDM: Scalable Speech Dysfluency Modeling
- Title(参考訳): SSDM:スケーラブル音声障害モデリング
- Authors: Jiachen Lian, Xuanru Zhou, Zoe Ezzes, Jet Vonk, Brittany Morin, David Baquirin, Zachary Mille, Maria Luisa Gorno Tempini, Gopala Krishna Anumanchipalli,
- Abstract要約: 音声のディフルエンシ・モデリングは、音声言語学習と音声治療のコアモジュールである。
現在の最先端ソリューションはスケーラビリティの低下に悩まされている。
大規模な逆流コーパスがない。
- 参考スコア(独自算出の注目度): 5.931218344686177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech dysfluency modeling is the core module for spoken language learning, and speech therapy. However, there are three challenges. First, current state-of-the-art solutions\cite{lian2023unconstrained-udm, lian-anumanchipalli-2024-towards-hudm} suffer from poor scalability. Second, there is a lack of a large-scale dysfluency corpus. Third, there is not an effective learning framework. In this paper, we propose \textit{SSDM: Scalable Speech Dysfluency Modeling}, which (1) adopts articulatory gestures as scalable forced alignment; (2) introduces connectionist subsequence aligner (CSA) to achieve dysfluency alignment; (3) introduces a large-scale simulated dysfluency corpus called Libri-Dys; and (4) develops an end-to-end system by leveraging the power of large language models (LLMs). We expect SSDM to serve as a standard in the area of dysfluency modeling. Demo is available at \url{https://berkeley-speech-group.github.io/SSDM/}.
- Abstract(参考訳): 音声のディフルエンシ・モデリングは、音声言語学習と音声治療のコアモジュールである。
しかし、課題は3つある。
まず、現在の最先端ソリューション\cite{lian2023unconstrained-udm, lian-anumanchipalli-2024-towards-hudm}はスケーラビリティの低下に悩まされる。
第二に、大規模な逆流コーパスがない。
第三に、効果的な学習フレームワークはありません。
本稿では,(1)音節的ジェスチャーをスケーラブルな強制アライメントとして採用する「textit{SSDM: Scalable Speech Dysfluency Modeling」,(2)ディフルアライメントを実現するためのコネクショナサブシーケンスアライメント(CSA)の導入,(3)リブリダイスと呼ばれる大規模シミュレーション型ディフルアライメントコーパスの導入,(4)大規模言語モデル(LLM)のパワーを活用してエンドツーエンドシステムを開発することを提案する。
我々は,Dyfluency Modelingの分野でSSDMが標準となることを期待している。
Demo は \url{https://berkeley-speech-group.github.io/SSDM/} で公開されている。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Stutter-Solver: End-to-end Multi-lingual Dysfluency Detection [4.126904442587873]
Stutter-r: 正確な型と時刻の書き起こしで逆流を検出するエンドツーエンドのフレームワーク。
VCTK-Pro、VCTK-Art、AISHELL3-Proは自然発声障害をシミュレートする。
提案手法は, 利用可能なすべてのディフルエンシコーパスに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-15T06:11:00Z) - YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Word Segmentation from Discrete Speech Units in
Low-Resource Settings [27.577882924447284]
音声からの教師なしワード(UWS)は有用だが、難しい作業である。
UWSにおける生成単位の可利用性について、5つの音声認識モデルを比較した。
以上の結果から,音声の離散化のためのニューラルモデルの利用は困難であり,シーケンス長の制限に適応する必要がある可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-08T12:50:37Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。