Fugu-MT 論文翻訳(概要): Towards Hierarchical Spoken Language Dysfluency Modeling

論文の概要: Towards Hierarchical Spoken Language Dysfluency Modeling

arxiv url: http://arxiv.org/abs/2401.10015v1
Date: Thu, 18 Jan 2024 14:33:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 16:25:02.977039
Title: Towards Hierarchical Spoken Language Dysfluency Modeling
Title（参考訳）: 階層型音声言語ディフルエンシーモデリングに向けて
Authors: Jiachen Lian and Gopala Anumanchipalli
Abstract要約: まず、まず、難解な音声と難解な音声モデリングの概念を定義する。次に,非拘束型非拘束型Dysfluency Modeling (H-UDM) アプローチを提案する。提案手法の有効性とロバスト性について検討し,本手法の有効性について検討した。
参考スコア（独自算出の注目度）: 8.45042473491412
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech dysfluency modeling is the bottleneck for both speech therapy and language learning. However, there is no AI solution to systematically tackle this problem. We first propose to define the concept of dysfluent speech and dysfluent speech modeling. We then present Hierarchical Unconstrained Dysfluency Modeling (H-UDM) approach that addresses both dysfluency transcription and detection to eliminate the need for extensive manual annotation. Furthermore, we introduce a simulated dysfluent dataset called VCTK++ to enhance the capabilities of H-UDM in phonetic transcription. Our experimental results demonstrate the effectiveness and robustness of our proposed methods in both transcription and detection tasks.
Abstract（参考訳）: 言語障害モデリングは、言語療法と言語学習の両方においてボトルネックとなる。しかし、この問題に体系的に対処するAIソリューションは存在しない。まず, ディフューレント音声の概念とディフューレント音声モデルの概念を定義することを提案する。そこで我々は,広範囲な手動アノテーションの必要をなくすために,非拘束型非拘束型Dysfluency Modeling (H-UDM)アプローチを提案する。さらに,音素転写におけるH-UDMの能力を高めるために,VCTK++と呼ばれる暗黙的データセットを導入した。提案手法の有効性とロバスト性について検討し,本手法の有効性について検討した。

関連論文リスト

Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文参考訳（メタデータ） (2025-06-19T08:24:17Z)
Seamless Dysfluent Speech Text Alignment for Disordered Speech Analysis [8.5693791544413]
本稿では,難読テキストと音声テキストアライメントのための新しいアプローチであるNeural LCSを提案する。提案手法を大規模シミュレーションデータセット上で評価する。以上の結果から,音声障害の診断・解析の自動化システムを強化するニューラルLCSの可能性が示された。
論文参考訳（メタデータ） (2025-06-05T03:06:37Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection [5.512072120303165]
Dysfluent-WFSTはゼロショットデコーダで、音素を同時に書き起こし、逆流を検出する。模擬および実音声データにおける音素誤り率とディフルエンシ検出の両面での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-22T08:02:50Z)
Devising a Set of Compact and Explainable Spoken Language Feature for Screening Alzheimer's Disease [52.46922921214341]
アルツハイマー病(AD)は高齢化社会において最も重要な健康問題の一つとなっている。我々は,大言語モデル(LLM)とTF-IDFモデルの視覚的機能を活用する,説明可能な効果的な機能セットを考案した。当社の新機能は、自動ADスクリーニングの解釈可能性を高めるステップバイステップで説明し、解釈することができる。
論文参考訳（メタデータ） (2024-11-28T05:23:22Z)
Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。本手法は, 標準確率流モデルの再構成に基づく。実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文参考訳（メタデータ） (2024-03-25T17:58:22Z)
Automatic Disfluency Detection from Untranscribed Speech [25.534535098405602]
発声は、高頻度の不一致を特徴とする発声障害である。自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
論文参考訳（メタデータ） (2023-11-01T21:36:39Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
Diffusion-based speech enhancement with a weighted generative-supervised learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:35Z)
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。実験の結果,提案手法はベースライン法よりも優れていた。
論文参考訳（メタデータ） (2023-07-28T11:20:23Z)
Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。 TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文参考訳（メタデータ） (2023-05-30T09:57:36Z)
DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文参考訳（メタデータ） (2023-05-26T14:13:38Z)
A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:58:42Z)
Streaming Joint Speech Recognition and Disfluency Detection [30.018034246393725]
音声認識と拡散検出を共同で解くトランスフォーマーベースのエンコーダデコーダモデルを提案する。パイプラインアプローチと比較して、ジョイントモデルは、認識エラーに対して拡散検出を堅牢にする音響情報を利用することができる。提案したジョイントモデルでは,BERTベースのパイプラインアプローチよりも精度とレイテンシが優れていた。
論文参考訳（メタデータ） (2022-11-16T07:34:20Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文参考訳（メタデータ） (2020-09-22T03:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。