論文の概要: ClaritySpeech: Dementia Obfuscation in Speech
- arxiv url: http://arxiv.org/abs/2507.09282v1
- Date: Sat, 12 Jul 2025 13:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.869684
- Title: ClaritySpeech: Dementia Obfuscation in Speech
- Title(参考訳): ClaritySpeech : 音声における認知症難読化
- Authors: Dominika Woszczyk, Ranya Aloufi, Soteris Demetriou,
- Abstract要約: 認知症は、音声パターンを変更し、コミュニケーション障壁を作成し、プライバシーの懸念を高める。
本稿では,音声フレームワークClaritySpeechの認知症難読化について述べる。
低データ環境における話者識別を微調整せずに保ちながら、認知症に影響を及ぼした音声を補正する。
- 参考スコア(独自算出の注目度): 3.9530780161144667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dementia, a neurodegenerative disease, alters speech patterns, creating communication barriers and raising privacy concerns. Current speech technologies, such as automatic speech transcription (ASR), struggle with dementia and atypical speech, further challenging accessibility. This paper presents a novel dementia obfuscation in speech framework, ClaritySpeech, integrating ASR, text obfuscation, and zero-shot text-to-speech (TTS) to correct dementia-affected speech while preserving speaker identity in low-data environments without fine-tuning. Results show a 16% and 10% drop in mean F1 score across various adversarial settings and modalities (audio, text, fusion) for ADReSS and ADReSSo, respectively, maintaining 50% speaker similarity. We also find that our system improves WER (from 0.73 to 0.08 for ADReSS and 0.15 for ADReSSo) and speech quality from 1.65 to ~2.15, enhancing privacy and accessibility.
- Abstract(参考訳): 神経変性疾患である認知症は、音声パターンを変更し、コミュニケーション障壁を作成し、プライバシー上の懸念を高める。
現在の音声技術、例えば自動音声書き起こし(ASR)、認知症と非定型音声との闘い、さらにアクセシビリティに挑戦する。
本稿では,音声フレームワークClaritySpeechの新規な認知症難読化について述べる。ASR,テキスト難読化,ゼロショットテキスト対音声(TTS)を統合し,低データ環境下での話者識別を維持しつつ,認知症に影響を及ぼした音声を補正する。
その結果,ADReSS と ADReSSo では, 平均 F1 得点が16%, 10% 低下し, 話者類似度は50%であった。
また、我々のシステムはWER(ADReSSは0.73から0.08、ADReSSoは0.15)を改善し、音声品質を1.65から2.15に改善し、プライバシーとアクセシビリティを向上させる。
関連論文リスト
- WhisperD: Dementia Speech Recognition and Filler Word Detection with Whisper [0.9831489366502302]
認知症(PwD)の人は、しばしば不規則な発話パターンと不一致を示すため、Whisperは正しく認知症を転写することができない。
我々はWhisperを、オープンソースの認知症音声データセット(DementiaBank)と社内データセットで微調整し、単語エラー率(WER)を改善する。
論文 参考訳(メタデータ) (2025-05-25T21:48:03Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition [0.0]
サイレント音声インタフェース(SSI)は、無音音声通信のための脳-コンピュータインタフェースの非侵襲的な代替手段を提供する。
我々は,マルチモーダル・ニューラル・オーディオ(MONA)を導入し,多モーダル・アライメントを利用した多モーダル・モデルの学習を行う。
我々の知る限りでは、オープンボキャブラリ上の非侵襲的無声音声認識が15% WERの閾値をクリアした最初の事例である。
論文 参考訳(メタデータ) (2024-03-02T21:15:24Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Cross-lingual Self-Supervised Speech Representations for Improved
Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。
我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。
結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-04T17:36:01Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。