論文の概要: TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2502.11478v1
- Date: Mon, 17 Feb 2025 06:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:20.063118
- Title: TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement
- Title(参考訳): TAPS:深層学習に基づく音声強調のための音・音響ペア音声データセット
- Authors: Yunsik Kim, Yonghun Song, Yoonyoung Chung,
- Abstract要約: スロートマイクは、そのノイズ抑制特性を解決し、音声を録音する際のノイズを低減する。
音波が皮膚や組織を通過すると、高周波情報が減衰し、音声の明瞭度が低下する。
近年の深層学習アプローチでは喉頭マイクロホン記録の強化が期待されているが,標準化されたデータセットの欠如によりさらなる進歩が制限されている。
喉頭と音響のペア音声データセット (TAPS) を導入し, 喉頭と音響マイクロホンを用いた60人の韓国語話者からのペア音声の収集を行った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In high-noise environments such as factories, subways, and busy streets, capturing clear speech is challenging due to background noise. Throat microphones provide a solution with their noise-suppressing properties, reducing the noise while recording speech. However, a significant limitation remains: high-frequency information is attenuated as sound waves pass through skin and tissue, reducing speech clarity. Recent deep learning approaches have shown promise in enhancing throat microphone recordings, but further progress is constrained by the absence of standardized dataset. We introduce a throat and acoustic paired speech dataset (TAPS), a collection of paired utterances recorded from 60 native Korean speakers using throat and acoustic microphones. To demonstrate the TAPS's utility, we tested three baseline deep learning models and identified the mapping-based approach as superior in improving speech quality and restoring content. Additionally, we propose an optimal method to mitigate the signal mismatch between throat and acoustic microphones, ensuring model performance. These results highlight the potential of TAPS to serve as a standardized dataset and advance research in throat microphone-based speech enhancement.
- Abstract(参考訳): 工場、地下鉄、繁華街などの高騒音環境においては、背景雑音のため、明瞭な発話を捉えることは困難である。
スロートマイクは、そのノイズ抑制特性を解決し、音声を録音する際のノイズを低減する。
しかし、音波が皮膚や組織を通過すると、高周波情報は減衰し、音声の明瞭度が低下する。
近年の深層学習アプローチでは喉頭マイクロホン記録の強化が期待されているが,標準化されたデータセットの欠如によりさらなる進歩が制限されている。
喉頭と音響のペア音声データセット (TAPS) を導入し, 喉頭と音響マイクロホンを用いた60人の韓国語話者からのペア音声の収集を行った。
TAPSの有用性を実証するため、3つのベースライン深層学習モデルを検証し、マッピングに基づくアプローチを音声品質の向上とコンテンツ復元に優れていると同定した。
さらに,喉頭と音響マイクロホン間の信号ミスマッチを緩和し,モデル性能を確保するための最適手法を提案する。
これらの結果から,TAPSが標準化されたデータセットとして機能し,喉頭マイクによる音声強調研究の進展が示唆された。
関連論文リスト
- An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS [43.84833978193758]
ゼロショット音声合成システム(TTS)は、任意の話者の声を短い音声プロンプトから合成することができる。
生成した音声の品質は、音声プロンプトがノイズを含むと著しく劣化する。
本稿では,ノイズの多い音声プロンプトから発生する音声の質を高めるための様々な手法について検討する。
論文 参考訳(メタデータ) (2024-06-09T08:51:50Z) - On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Speech Denoising without Clean Training Data: a Noise2Noise Approach [0.0]
本稿では,深層学習に基づく音声復調法で求められるクリーンな音声データの重依存の問題に取り組む。
その結果, 雑音下音声サンプルのみを用いて, ディープ音声発声ネットワークの訓練が可能となった。
論文 参考訳(メタデータ) (2021-04-08T15:27:49Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。