論文の概要: TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2502.11478v2
- Date: Thu, 19 Jun 2025 03:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.476248
- Title: TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement
- Title(参考訳): TAPS:深層学習に基づく音声強調のための音・音響ペア音声データセット
- Authors: Yunsik Kim, Yonghun Song, Yoonyoung Chung,
- Abstract要約: 喉頭と音響マイクを用いて60人の韓国語話者から記録されたペア音声のデータセットであるThroat and Acoustic Paired Speechデータセットを紹介した。
近年の深層学習アプローチでは喉頭マイクロホン記録の強化が期待されているが、標準データセットの欠如によりさらなる進歩が制限されている。
TAPSデータセット上で3つのベースラインディープラーニングモデルを検証し,音声品質の向上とコンテンツ復元に優れたマッピングベースのアプローチを見出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In high-noise environments such as factories, subways, and busy streets, capturing clear speech is challenging. Throat microphones can offer a solution because of their inherent noise-suppression capabilities; however, the passage of sound waves through skin and tissue attenuates high-frequency information, reducing speech clarity. Recent deep learning approaches have shown promise in enhancing throat microphone recordings, but further progress is constrained by the lack of a standard dataset. Here, we introduce the Throat and Acoustic Paired Speech (TAPS) dataset, a collection of paired utterances recorded from 60 native Korean speakers using throat and acoustic microphones. Furthermore, an optimal alignment approach was developed and applied to address the inherent signal mismatch between the two microphones. We tested three baseline deep learning models on the TAPS dataset and found mapping-based approaches to be superior for improving speech quality and restoring content. These findings demonstrate the TAPS dataset's utility for speech enhancement tasks and support its potential as a standard resource for advancing research in throat microphone-based applications.
- Abstract(参考訳): 工場、地下鉄、繁華街などの高騒音環境においては、明確なスピーチを捉えることは困難である。
しかし、皮膚や組織を通る音波の通過は高周波情報を減衰させ、音声の明瞭度を低下させる。
近年の深層学習アプローチでは喉頭マイクロフォン記録の強化が期待されているが、標準データセットの欠如によりさらなる進歩が制限されている。
本稿では,60人の韓国人話者の喉頭と音響マイクロホンを用いたペア音声集である,Throat and Acoustic Paired Speech (TAPS)データセットについて紹介する。
さらに, 2つのマイクロホン間の信号ミスマッチに対処するために, 最適アライメント手法を開発し, 適用した。
TAPSデータセット上で3つのベースラインディープラーニングモデルを検証し,音声品質の向上とコンテンツ復元に優れたマッピングベースのアプローチを見出した。
これらの結果から,TAPSデータセットが音声強調作業に有効であること,喉頭マイクロフォンを用いた研究を進めるための標準リソースとしての可能性が確認された。
関連論文リスト
- An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS [43.84833978193758]
ゼロショット音声合成システム(TTS)は、任意の話者の声を短い音声プロンプトから合成することができる。
生成した音声の品質は、音声プロンプトがノイズを含むと著しく劣化する。
本稿では,ノイズの多い音声プロンプトから発生する音声の質を高めるための様々な手法について検討する。
論文 参考訳(メタデータ) (2024-06-09T08:51:50Z) - On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Speech Denoising without Clean Training Data: a Noise2Noise Approach [0.0]
本稿では,深層学習に基づく音声復調法で求められるクリーンな音声データの重依存の問題に取り組む。
その結果, 雑音下音声サンプルのみを用いて, ディープ音声発声ネットワークの訓練が可能となった。
論文 参考訳(メタデータ) (2021-04-08T15:27:49Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。