論文の概要: DiffSED: Sound Event Detection with Denoising Diffusion
- arxiv url: http://arxiv.org/abs/2308.07293v2
- Date: Wed, 16 Aug 2023 18:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 21:55:37.097373
- Title: DiffSED: Sound Event Detection with Denoising Diffusion
- Title(参考訳): DiffSED:デノイング拡散による音事象検出
- Authors: Swapnil Bhosale, Sauradip Nag, Diptesh Kanojia, Jiankang Deng, Xiatian
Zhu
- Abstract要約: 生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
- 参考スコア(独自算出の注目度): 70.18051526555512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound Event Detection (SED) aims to predict the temporal boundaries of all
the events of interest and their class labels, given an unconstrained audio
sample. Taking either the splitand-classify (i.e., frame-level) strategy or the
more principled event-level modeling approach, all existing methods consider
the SED problem from the discriminative learning perspective. In this work, we
reformulate the SED problem by taking a generative learning perspective.
Specifically, we aim to generate sound temporal boundaries from noisy proposals
in a denoising diffusion process, conditioned on a target audio sample. During
training, our model learns to reverse the noising process by converting noisy
latent queries to the groundtruth versions in the elegant Transformer decoder
framework. Doing so enables the model generate accurate event boundaries from
even noisy queries during inference. Extensive experiments on the Urban-SED and
EPIC-Sounds datasets demonstrate that our model significantly outperforms
existing alternatives, with 40+% faster convergence in training.
- Abstract(参考訳): Sound Event Detection (SED) は、制約のないオーディオサンプルから、興味のあるすべてのイベントとそのクラスラベルの時間的境界を予測することを目的としている。
スプリット・アンド・クラス化(フレームレベル)戦略やより原則化されたイベントレベルのモデリングアプローチを採用すると、既存のすべての手法は差別的な学習の観点からSEDの問題を考慮する。
本研究では、生成学習の観点からSED問題を再構築する。
具体的には,対象の音声サンプルに条件付けした雑音拡散過程において,雑音のある提案から音の時間境界を生成することを目的とする。
トレーニング中,我々のモデルは,ノイズの多い遅延クエリをエレガントなTransformerデコーダフレームワークの基底バージョンに変換することで,ノイズ発生プロセスの反転を学習する。
そうすることで、モデルは推論中にノイズの多いクエリから正確なイベント境界を生成することができる。
urban-sedとepic-soundsデータセットに関する広範な実験は、トレーニングの収束が40%以上速く、既存の代替案を大幅に上回っていることを示している。
関連論文リスト
- DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。
入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文 参考訳(メタデータ) (2023-03-27T00:40:52Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Sound Event Detection Transformer: An Event-based End-to-End Model for
Sound Event Detection [12.915110466077866]
音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。
SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換する。
本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。
SEDの特性から、1D-DETRに音声クエリと1対1のマッチング戦略を追加し、SEDT(Sound Event Detection Transformer)のモデルを作成する。
論文 参考訳(メタデータ) (2021-10-05T12:56:23Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Cross-Referencing Self-Training Network for Sound Event Detection in
Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。
DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文 参考訳(メタデータ) (2021-05-27T18:46:59Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。