Fugu-MT 論文翻訳(概要): TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement

論文の概要: TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement

arxiv url: http://arxiv.org/abs/2502.11478v2
Date: Thu, 19 Jun 2025 03:31:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 14:57:51.476248
Title: TAPS: Throat and Acoustic Paired Speech Dataset for Deep Learning-Based Speech Enhancement
Title（参考訳）: TAPS:深層学習に基づく音声強調のための音・音響ペア音声データセット
Authors: Yunsik Kim, Yonghun Song, Yoonyoung Chung,
Abstract要約: 喉頭と音響マイクを用いて60人の韓国語話者から記録されたペア音声のデータセットであるThroat and Acoustic Paired Speechデータセットを紹介した。近年の深層学習アプローチでは喉頭マイクロホン記録の強化が期待されているが、標準データセットの欠如によりさらなる進歩が制限されている。 TAPSデータセット上で3つのベースラインディープラーニングモデルを検証し,音声品質の向上とコンテンツ復元に優れたマッピングベースのアプローチを見出した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In high-noise environments such as factories, subways, and busy streets, capturing clear speech is challenging. Throat microphones can offer a solution because of their inherent noise-suppression capabilities; however, the passage of sound waves through skin and tissue attenuates high-frequency information, reducing speech clarity. Recent deep learning approaches have shown promise in enhancing throat microphone recordings, but further progress is constrained by the lack of a standard dataset. Here, we introduce the Throat and Acoustic Paired Speech (TAPS) dataset, a collection of paired utterances recorded from 60 native Korean speakers using throat and acoustic microphones. Furthermore, an optimal alignment approach was developed and applied to address the inherent signal mismatch between the two microphones. We tested three baseline deep learning models on the TAPS dataset and found mapping-based approaches to be superior for improving speech quality and restoring content. These findings demonstrate the TAPS dataset's utility for speech enhancement tasks and support its potential as a standard resource for advancing research in throat microphone-based applications.
Abstract（参考訳）: 工場、地下鉄、繁華街などの高騒音環境においては、明確なスピーチを捉えることは困難である。しかし、皮膚や組織を通る音波の通過は高周波情報を減衰させ、音声の明瞭度を低下させる。近年の深層学習アプローチでは喉頭マイクロフォン記録の強化が期待されているが、標準データセットの欠如によりさらなる進歩が制限されている。本稿では,60人の韓国人話者の喉頭と音響マイクロホンを用いたペア音声集である,Throat and Acoustic Paired Speech (TAPS)データセットについて紹介する。さらに, 2つのマイクロホン間の信号ミスマッチに対処するために, 最適アライメント手法を開発し, 適用した。 TAPSデータセット上で3つのベースラインディープラーニングモデルを検証し,音声品質の向上とコンテンツ復元に優れたマッピングベースのアプローチを見出した。これらの結果から,TAPSデータセットが音声強調作業に有効であること,喉頭マイクロフォンを用いた研究を進めるための標準リソースとしての可能性が確認された。

関連論文リスト

Multi-Stage Speaker Diarization for Noisy Classrooms [1.4549461207028445]
本研究では,NvidiaのNeMoダイアリゼーションパイプラインを用いた多段ダイアリゼーションモデルの有効性を検討した。ダイアリゼーション精度に対する聴覚の影響を評価し,様々な音声活動検出モデルを比較した。また、フレームレベルのVAD予測と自動音声認識(ASR)ワードレベルのタイムスタンプを統合するハイブリッドVAD手法についても検討する。
論文参考訳（メタデータ） (2025-05-16T05:35:06Z)
Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space [10.875499903992782]
我々は、音声コマンド分類の特定のタスクに対して、合成音声データを用いてゼロショット学習に関する一連の実験を行う。 Google Speech Commands データセットの結果から,単純な ASR ベースのフィルタリング手法が生成したデータの品質に大きな影響を及ぼす可能性が示唆された。生成した音声データの品質は高いが,自己教師付き(WavLM)機能を用いることで,合成音声と実音声の区別が容易に可能であることを示す。
論文参考訳（メタデータ） (2024-09-19T13:07:55Z)
An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS [43.84833978193758]
ゼロショット音声合成システム(TTS)は、任意の話者の声を短い音声プロンプトから合成することができる。生成した音声の品質は、音声プロンプトがノイズを含むと著しく劣化する。本稿では,ノイズの多い音声プロンプトから発生する音声の質を高めるための様々な手法について検討する。
論文参考訳（メタデータ） (2024-06-09T08:51:50Z)
On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文参考訳（メタデータ） (2024-02-19T16:22:21Z)
Continuous Modeling of the Denoising Process for Speech Enhancement Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。 UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文参考訳（メタデータ） (2023-09-17T13:27:11Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文参考訳（メタデータ） (2021-10-28T20:39:02Z)
PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文参考訳（メタデータ） (2021-10-03T07:05:29Z)
Speech Denoising without Clean Training Data: a Noise2Noise Approach [0.0]
本稿では,深層学習に基づく音声復調法で求められるクリーンな音声データの重依存の問題に取り組む。その結果, 雑音下音声サンプルのみを用いて, ディープ音声発声ネットワークの訓練が可能となった。
論文参考訳（メタデータ） (2021-04-08T15:27:49Z)
Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。本稿では,WUW検出に適応した音声強調モデルを提案する。これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文参考訳（メタデータ） (2021-01-29T18:44:05Z)
CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。 CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文参考訳（メタデータ） (2020-08-21T02:04:12Z)
Incorporating Broad Phonetic Information for Speech Enhancement [23.12902068334228]
ノイズの多い環境では、音声の内容を知ることで、聞き手は背景雑音成分をより効果的に抑制することができる。従来の研究では、音声強調システムに音声情報を組み込むことの利点が確認されている。本研究は,SEプロセスに広帯域音声クラス(BPC)情報を統合することを提案する。
論文参考訳（メタデータ） (2020-08-13T09:38:08Z)
Adversarial Feature Learning and Unsupervised Clustering based Speech Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文参考訳（メタデータ） (2020-04-28T15:32:45Z)
Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文参考訳（メタデータ） (2020-01-30T18:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。