論文の概要: Sound Event Detection in Urban Audio With Single and Multi-Rate PCEN
- arxiv url: http://arxiv.org/abs/2102.03468v1
- Date: Sat, 6 Feb 2021 01:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 02:17:35.921847
- Title: Sound Event Detection in Urban Audio With Single and Multi-Rate PCEN
- Title(参考訳): シングル・マルチレートpcenを用いた都市音声の音響イベント検出
- Authors: Christopher Ick, Brian McFee
- Abstract要約: チャネルごとのエネルギー正規化(PCEN)は、重なり合うイベントを伴うマルチクラス設定において、ログスケールメル周波数スペクトログラムよりも大幅に性能が向上する。
本稿では,クラスごとに改善を示すが,クラス間の性能は劣る。
新たな手法であるMulti-Rate PCEN (MRPCEN) を用いたPCENを用いたクラス間性能について検討する。
- 参考スコア(独自算出の注目度): 5.951376149931151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent literature has demonstrated that the use of per-channel energy
normalization (PCEN), has significant performance improvements over traditional
log-scaled mel-frequency spectrograms in acoustic sound event detection (SED)
in a multi-class setting with overlapping events. However, the configuration of
PCEN's parameters is sensitive to the recording environment, the
characteristics of the class of events of interest, and the presence of
multiple overlapping events. This leads to improvements on a class-by-class
basis, but poor cross-class performance. In this article, we experiment using
PCEN spectrograms as an alternative method for SED in urban audio using the
UrbanSED dataset, demonstrating per-class improvements based on parameter
configuration. Furthermore, we address cross-class performance with PCEN using
a novel method, Multi-Rate PCEN (MRPCEN). We demonstrate cross-class SED
performance with MRPCEN, demonstrating improvements to cross-class performance
compared to traditional single-rate PCEN.
- Abstract(参考訳): 最近の文献では、チャンネルごとのエネルギー正規化(PCEN)の使用は、重複したイベントを持つマルチクラス設定における音響音響イベント検出(SED)における従来のログスケールメル周波数分光法よりも有意な性能改善を有することを実証している。
しかし、PCENのパラメータの設定は、記録環境、興味のあるイベントのクラスの特徴、重複する複数のイベントの存在に敏感である。
これはクラスごとに改善されるが、クラス間のパフォーマンスは劣る。
本稿では,都市音声におけるSEDの代替手法としてPCENスペクトログラムを用いてUrbanSEDデータセットを用いて実験を行い,パラメータ設定に基づくクラスごとの改善を示す。
さらに,新しい手法であるMulti-Rate PCEN (MRPCEN) を用いて,PCENを用いたクラス間性能について検討する。
MRPCENによるクラス間SED性能の実証を行い、従来のシングルレートPCENと比較してクラス間性能の改善を示す。
関連論文リスト
- Learning Multi-Target TDOA Features for Sound Event Localization and Detection [11.193111023459803]
本稿では,位相変換(NGCC-PHAT)を用いたニューラル一般化相互相関に基づく,局所化に適した音声表現を学習する新機能を提案する。
提案手法をSTARSS23データセット上でテストし,標準GCC-PHAT や SALSA-Lite の入力機能と比較して,ローカライズ性能の向上を実証した。
論文 参考訳(メタデータ) (2024-08-30T10:09:12Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Improving Post-Processing of Audio Event Detectors Using Reinforcement
Learning [5.758073912084364]
我々は,ポストプロセッシングスタックの様々な段階における最適パラメータを共同で発見するために強化学習を用いる。
音声イベントベースのマクロF1スコアを4-5%改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-19T08:00:26Z) - MetaAudio: A Few-Shot Audio Classification Benchmark [2.294014185517203]
この研究は、画像ベースのベンチマークへの依存を軽減することを目的として、初めて包括的で公開され、完全に再現可能なオーディオベースの代替手段を提供する。
7つの音声データセットにおいて,様々な手法の複数ショットの分類性能を比較した。
実験では,MAMLやMeta-Curvatureのような勾配に基づくメタ学習法が,測定法とベースライン法の両方で一貫して優れていた。
論文 参考訳(メタデータ) (2022-04-05T11:33:44Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Dual-Cross Central Difference Network for Face Anti-Spoofing [54.81222020394219]
対面防止(FAS)は、顔認識システムを保護する上で重要な役割を担っている。
中央差分畳み込み(CDC)は、FASタスクの優れた表現能力を示しています。
中心と周囲の局所的な特徴の差を利用した2つのC-CDC(Cross Central difference Convolutions)を提案する。
論文 参考訳(メタデータ) (2021-05-04T05:11:47Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。