論文の概要: SSDM: Scalable Speech Dysfluency Modeling
- arxiv url: http://arxiv.org/abs/2408.16221v3
- Date: Thu, 03 Oct 2024 21:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:47.134885
- Title: SSDM: Scalable Speech Dysfluency Modeling
- Title(参考訳): SSDM:スケーラブル音声障害モデリング
- Authors: Jiachen Lian, Xuanru Zhou, Zoe Ezzes, Jet Vonk, Brittany Morin, David Baquirin, Zachary Mille, Maria Luisa Gorno Tempini, Gopala Krishna Anumanchipalli,
- Abstract要約: 音声のディフルエンシ・モデリングは、音声言語学習と音声治療のコアモジュールである。
現在の最先端ソリューションはスケーラビリティの低下に悩まされている。
大規模な逆流コーパスがない。
- 参考スコア(独自算出の注目度): 5.931218344686177
- License:
- Abstract: Speech dysfluency modeling is the core module for spoken language learning, and speech therapy. However, there are three challenges. First, current state-of-the-art solutions\cite{lian2023unconstrained-udm, lian-anumanchipalli-2024-towards-hudm} suffer from poor scalability. Second, there is a lack of a large-scale dysfluency corpus. Third, there is not an effective learning framework. In this paper, we propose \textit{SSDM: Scalable Speech Dysfluency Modeling}, which (1) adopts articulatory gestures as scalable forced alignment; (2) introduces connectionist subsequence aligner (CSA) to achieve dysfluency alignment; (3) introduces a large-scale simulated dysfluency corpus called Libri-Dys; and (4) develops an end-to-end system by leveraging the power of large language models (LLMs). We expect SSDM to serve as a standard in the area of dysfluency modeling. Demo is available at \url{https://berkeley-speech-group.github.io/SSDM/}.
- Abstract(参考訳): 音声のディフルエンシ・モデリングは、音声言語学習と音声治療のコアモジュールである。
しかし、課題は3つある。
まず、現在の最先端ソリューション\cite{lian2023unconstrained-udm, lian-anumanchipalli-2024-towards-hudm}はスケーラビリティの低下に悩まされる。
第二に、大規模な逆流コーパスがない。
第三に、効果的な学習フレームワークはありません。
本稿では,(1)音節的ジェスチャーをスケーラブルな強制アライメントとして採用する「textit{SSDM: Scalable Speech Dysfluency Modeling」,(2)ディフルアライメントを実現するためのコネクショナサブシーケンスアライメント(CSA)の導入,(3)リブリダイスと呼ばれる大規模シミュレーション型ディフルアライメントコーパスの導入,(4)大規模言語モデル(LLM)のパワーを活用してエンドツーエンドシステムを開発することを提案する。
我々は,Dyfluency Modelingの分野でSSDMが標準となることを期待している。
Demo は \url{https://berkeley-speech-group.github.io/SSDM/} で公開されている。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Towards Hierarchical Spoken Language Dysfluency Modeling [8.45042473491412]
言語障害モデリングは、言語療法と言語学習の両方においてボトルネックとなる。
UDMの階層的拡張であるH-UDM(Hierarchical Unconstrained Disfluency Modeling)アプローチを提案する。
実験結果から,提案手法の有効性と信頼性が明らかとなった。
論文 参考訳(メタデータ) (2024-01-18T14:33:01Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Word Segmentation from Discrete Speech Units in
Low-Resource Settings [27.577882924447284]
音声からの教師なしワード(UWS)は有用だが、難しい作業である。
UWSにおける生成単位の可利用性について、5つの音声認識モデルを比較した。
以上の結果から,音声の離散化のためのニューラルモデルの利用は困難であり,シーケンス長の制限に適応する必要がある可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-08T12:50:37Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。