Fugu-MT 論文翻訳(概要): DiffSED: Sound Event Detection with Denoising Diffusion

論文の概要: DiffSED: Sound Event Detection with Denoising Diffusion

arxiv url: http://arxiv.org/abs/2308.07293v2
Date: Wed, 16 Aug 2023 18:57:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 21:55:37.097373
Title: DiffSED: Sound Event Detection with Denoising Diffusion
Title（参考訳）: DiffSED:デノイング拡散による音事象検出
Authors: Swapnil Bhosale, Sauradip Nag, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu
Abstract要約: 生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
参考スコア（独自算出の注目度）: 70.18051526555512
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sound Event Detection (SED) aims to predict the temporal boundaries of all the events of interest and their class labels, given an unconstrained audio sample. Taking either the splitand-classify (i.e., frame-level) strategy or the more principled event-level modeling approach, all existing methods consider the SED problem from the discriminative learning perspective. In this work, we reformulate the SED problem by taking a generative learning perspective. Specifically, we aim to generate sound temporal boundaries from noisy proposals in a denoising diffusion process, conditioned on a target audio sample. During training, our model learns to reverse the noising process by converting noisy latent queries to the groundtruth versions in the elegant Transformer decoder framework. Doing so enables the model generate accurate event boundaries from even noisy queries during inference. Extensive experiments on the Urban-SED and EPIC-Sounds datasets demonstrate that our model significantly outperforms existing alternatives, with 40+% faster convergence in training.
Abstract（参考訳）: Sound Event Detection (SED) は、制約のないオーディオサンプルから、興味のあるすべてのイベントとそのクラスラベルの時間的境界を予測することを目的としている。スプリット・アンド・クラス化(フレームレベル)戦略やより原則化されたイベントレベルのモデリングアプローチを採用すると、既存のすべての手法は差別的な学習の観点からSEDの問題を考慮する。本研究では、生成学習の観点からSED問題を再構築する。具体的には,対象の音声サンプルに条件付けした雑音拡散過程において,雑音のある提案から音の時間境界を生成することを目的とする。トレーニング中,我々のモデルは,ノイズの多い遅延クエリをエレガントなTransformerデコーダフレームワークの基底バージョンに変換することで,ノイズ発生プロセスの反転を学習する。そうすることで、モデルは推論中にノイズの多いクエリから正確なイベント境界を生成することができる。 urban-sedとepic-soundsデータセットに関する広範な実験は、トレーニングの収束が40%以上速く、既存の代替案を大幅に上回っていることを示している。

関連論文リスト

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance [54.88271057438763]
ノイズアウェアネスガイダンス (NAG) は、事前に定義された騒音スケジュールと整合性を保つために、サンプリング軌道を明示的に制御する補正手法である。 NAGは一貫してノイズシフトを緩和し、主流拡散モデルの生成品質を大幅に改善する。
論文参考訳（メタデータ） (2025-10-14T13:31:34Z)
Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文参考訳（メタデータ） (2025-06-11T06:01:39Z)
Enhancing Sample Generation of Diffusion Models using Noise Level Correction [9.014666170540304]
提案手法は, 推定雑音レベルと雑音の真の距離を多様体に合わせることで, サンプル生成を向上する手法である。具体的には,事前学習した騒音レベル補正ネットワークを導入し,騒音レベル推定を改良する。実験結果から,本手法は,制約のない生成シナリオと制約のない生成シナリオの両方において,サンプルの品質を著しく向上することが示された。
論文参考訳（メタデータ） (2024-12-07T01:19:14Z)
DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-09-09T04:40:01Z)
DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。 5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文参考訳（メタデータ） (2023-08-29T08:20:23Z)
DiffTAD: Temporal Action Detection with Proposal Denoising Diffusion [137.8749239614528]
そこで我々は,時間的行動検出(TAD)の新しい定式化を提案し,拡散を抑えるDiffTADを提案する。入力されたランダムな時間的提案を考慮すれば、トリミングされていない長いビデオが与えられたアクションの提案を正確に得ることができる。
論文参考訳（メタデータ） (2023-03-27T00:40:52Z)
Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文参考訳（メタデータ） (2023-02-19T15:24:37Z)
Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文参考訳（メタデータ） (2022-06-05T19:45:29Z)
Sound Event Detection Transformer: An Event-based End-to-End Model for Sound Event Detection [12.915110466077866]
音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。 SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換する。本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。 SEDの特性から、1D-DETRに音声クエリと1対1のマッチング戦略を追加し、SEDT(Sound Event Detection Transformer)のモデルを作成する。
論文参考訳（メタデータ） (2021-10-05T12:56:23Z)
Denoising Distantly Supervised Named Entity Recognition via a Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。 HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文参考訳（メタデータ） (2021-06-17T04:01:25Z)
Cross-Referencing Self-Training Network for Sound Event Detection in Audio Mixtures [23.568610919253352]
本稿では,教師なしデータから擬似ラベルを生成するための半教師付き手法を提案する。 DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。
論文参考訳（メタデータ） (2021-05-27T18:46:59Z)
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文参考訳（メタデータ） (2021-04-13T17:54:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。