論文の概要: Attention-Based Efficient Breath Sound Removal in Studio Audio Recordings
- arxiv url: http://arxiv.org/abs/2409.04949v1
- Date: Sun, 8 Sep 2024 02:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:00:10.391933
- Title: Attention-Based Efficient Breath Sound Removal in Studio Audio Recordings
- Title(参考訳): スタジオ録音における意図に基づく効果的な呼吸音除去
- Authors: Nidula Elgiriyewithana, N. D. Kodikara,
- Abstract要約: 非音声音声の自動検出と消去のための革新的でパラメータ効率の良いモデルを提案する。
提案モデルは,高度な深層学習技術の適用により達成された,合理化プロセスと優れた精度を提供することによって,限界に対処する。
我々のモデルは、音響技術者にとって貴重な時間を節約するだけでなく、オーディオ制作の品質と一貫性も向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this research, we present an innovative, parameter-efficient model that utilizes the attention U-Net architecture for the automatic detection and eradication of non-speech vocal sounds, specifically breath sounds, in vocal recordings. This task is of paramount importance in the field of sound engineering, despite being relatively under-explored. The conventional manual process for detecting and eliminating these sounds requires significant expertise and is extremely time-intensive. Existing automated detection and removal methods often fall short in terms of efficiency and precision. Our proposed model addresses these limitations by offering a streamlined process and superior accuracy, achieved through the application of advanced deep learning techniques. A unique dataset, derived from Device and Produced Speech (DAPS), was employed for this purpose. The training phase of the model emphasizes a log spectrogram and integrates an early stopping mechanism to prevent overfitting. Our model not only conserves precious time for sound engineers but also enhances the quality and consistency of audio production. This constitutes a significant breakthrough, as evidenced by its comparative efficiency, necessitating only 1.9M parameters and a training duration of 3.2 hours - markedly less than the top-performing models in this domain. The model is capable of generating identical outputs as previous models with drastically improved precision, making it an optimal choice.
- Abstract(参考訳): 本研究では,音声録音における非音声音声,特に呼吸音の自動検出と消去に,注目U-Netアーキテクチャを利用する,革新的でパラメータ効率のよいモデルを提案する。
この課題は、比較的過小評価されているにもかかわらず、音工学の分野では最重要課題である。
従来の手作業でこれらの音を検知・除去するにはかなりの専門知識が必要であり、非常に時間を要する。
既存の自動検出と除去の方法は、効率と精度の点で不足することが多い。
提案モデルでは,先進的な深層学習技術の適用により達成された,合理化プロセスと精度の向上により,これらの制約に対処する。
この目的のために、DAPS(Device and Produced Speech)から派生したユニークなデータセットが採用された。
モデルのトレーニングフェーズでは、ログのスペクトログラムを強調し、オーバーフィッティングを防ぐための早期停止メカニズムを統合する。
我々のモデルは、音響技術者にとって貴重な時間を節約するだけでなく、音質と音質の整合性も向上させる。
これは、その比較効率によって証明され、わずか1.9Mのパラメータと3.2時間のトレーニング期間が必要であり、この領域の最高性能モデルよりも著しく少ない。
このモデルでは以前のモデルと同じ出力を生成することができ、精度が大幅に向上し、最適な選択となっている。
関連論文リスト
- Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - CheapNET: Improving Light-weight speech enhancement network by projected
loss function [0.8192907805418583]
我々は,MSEから分岐した新しい投射損失関数を導入し,雑音抑制を向上する。
エコーキャンセリングのために、この関数はLAEC事前処理された出力の直接予測を可能にする。
ノイズ抑制モデルは,3.1Mパラメータと0.4GFlops/s計算負荷のみを用いて,ほぼ最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T16:03:42Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation [26.39206098000297]
小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
論文 参考訳(メタデータ) (2021-05-08T00:42:03Z) - Exploring Quality and Generalizability in Parameterized Neural Audio
Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文 参考訳(メタデータ) (2020-06-10T00:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。