論文の概要: Sound Event Detection Transformer: An Event-based End-to-End Model for
Sound Event Detection
- arxiv url: http://arxiv.org/abs/2110.02011v1
- Date: Tue, 5 Oct 2021 12:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 13:55:38.994578
- Title: Sound Event Detection Transformer: An Event-based End-to-End Model for
Sound Event Detection
- Title(参考訳): 音響イベント検出トランス : 音響イベント検出のためのイベントベースエンド・ツー・エンドモデル
- Authors: Zhirong Ye, Xiangdong Wang, Hong Liu, Yueliang Qian, Rui Tao, Long
Yan, Kazushige Ouchi
- Abstract要約: 音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。
SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換する。
本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。
SEDの特性から、1D-DETRに音声クエリと1対1のマッチング戦略を追加し、SEDT(Sound Event Detection Transformer)のモデルを作成する。
- 参考スコア(独自算出の注目度): 12.915110466077866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound event detection (SED) has gained increasing attention with its wide
application in surveillance, video indexing, etc. Existing models in SED mainly
generate frame-level predictions, converting it into a sequence multi-label
classification problem, which inevitably brings a trade-off between event
boundary detection and audio tagging when using weakly labeled data to train
the model. Besides, it needs post-processing and cannot be trained in an
end-to-end way. This paper firstly presents the 1D Detection Transformer
(1D-DETR), inspired by Detection Transformer. Furthermore, given the
characteristics of SED, the audio query and a one-to-many matching strategy for
fine-tuning the model are added to 1D-DETR to form the model of Sound Event
Detection Transformer (SEDT), which generates event-level predictions,
end-to-end detection. Experiments are conducted on the URBAN-SED dataset and
the DCASE2019 Task4 dataset, and both experiments have achieved competitive
results compared with SOTA models. The application of SEDT on SED shows that it
can be used as a framework for one-dimensional signal detection and may be
extended to other similar tasks.
- Abstract(参考訳): 音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。
SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換し、弱いラベル付きデータを使用してモデルを訓練する際に、イベント境界検出とオーディオタグのトレードオフを必然的に引き起こす。
さらに、処理後も必要で、エンドツーエンドでトレーニングすることはできません。
本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。
さらに、sedの特性を考慮し、モデルを微調整するための音声クエリと1対1のマッチング戦略を1d-detrに追加して、イベントレベルの予測、エンドツーエンド検出を生成する音響イベント検出トランス(sedt)モデルを形成する。
URBAN-SEDデータセットとDCASE2019 Task4データセットで実験を行い、両方の実験はSOTAモデルと比較して競合的な結果を得た。
SEDへのSEDTの適用は、1次元信号検出のフレームワークとして使用でき、他の類似タスクにも拡張可能であることを示している。
関連論文リスト
- Prototype based Masked Audio Model for Self-Supervised Learning of Sound Event Detection [22.892382672888488]
半教師付きアルゴリズムはラベルのないデータから学ぶためにラベル付きデータに依存する。
SEDにおける自己教師型表現学習のためのプロトタイプベースMasked Audio Model(PMAM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T09:07:20Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Remote Sensing Change Detection With Transformers Trained from Scratch [62.96911491252686]
トランスフォーマーベースの変更検出(CD)アプローチでは、大規模なイメージ分類でトレーニングされた事前トレーニングモデルを使用するか、別のCDデータセットで最初の事前トレーニングを頼りにしてから、ターゲットのベンチマークを微調整する。
我々は、4つの公開ベンチマークにおいて、スクラッチからトレーニングされながら最先端のパフォーマンスを実現するトランスフォーマーを用いたエンドツーエンドCDアプローチを開発した。
論文 参考訳(メタデータ) (2023-04-13T17:57:54Z) - DEGAN: Time Series Anomaly Detection using Generative Adversarial
Network Discriminators and Density Estimation [0.0]
我々は,GANに基づく異常検出フレームワークDEGANを提案する。
これは、適切に構成された識別器(D)をスタンドアロンの異常予測器に訓練するための入力として、通常の時系列データにのみ依存する。
論文 参考訳(メタデータ) (2022-10-05T04:32:12Z) - Event Data Association via Robust Model Fitting for Event-based Object Tracking [66.05728523166755]
本稿では,イベントアソシエーションと融合問題に明示的に対処する新しいイベントデータアソシエーション(EDA)手法を提案する。
提案するEDAは、統合データアソシエーションと情報融合を行うために、イベントデータに最も適したイベントトラジェクトリを求める。
実験結果から,高速,運動のぼやけ,高ダイナミックレンジ条件といった難易度シナリオ下でのEDAの有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T13:56:00Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Few-Shot Event Detection with Prototypical Amortized Conditional Random
Field [8.782210889586837]
イベント検出は、いくつかのサンプルで新しいイベントタイプを認識する必要がある場合、苦労する傾向がある。
本稿では,タスクを2部タグ付け方式で複数ショットタグ付け問題に変換する統一結合モデルを提案する。
ベンチマークデータセットFewEventで実験を行い、実験結果から、タグ付けに基づく手法は既存のパイプラインやジョイントラーニング手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-12-04T01:11:13Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。