論文の概要: CoLoC: Conditioned Localizer and Classifier for Sound Event Localization
and Detection
- arxiv url: http://arxiv.org/abs/2210.13932v1
- Date: Tue, 25 Oct 2022 11:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 16:17:33.131709
- Title: CoLoC: Conditioned Localizer and Classifier for Sound Event Localization
and Detection
- Title(参考訳): CoLoC:音事象の局所化と検出のための条件付きローカライザと分類器
- Authors: S{\l}awomir Kapka, Jakub Tkaczuk
- Abstract要約: 音事象の局所化・検出(SELD)のための新しいソリューションである条件付きローカライザと(CoLoC)について述べる。
解は2つの段階から構成される: 局所化はまず行われ、次にローカライザの出力によって条件付けられた分類が続く。
我々は,STARSS22データセットのほとんどの指標において,ベースラインシステムの改善を図っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article, we describe Conditioned Localizer and Classifier (CoLoC)
which is a novel solution for Sound Event Localization and Detection (SELD).
The solution constitutes of two stages: the localization is done first and is
followed by classification conditioned by the output of the localizer. In order
to resolve the problem of the unknown number of sources we incorporate the idea
borrowed from Sequential Set Generation (SSG). Models from both stages are
SELDnet-like CRNNs, but with single outputs. Conducted reasoning shows that
such two single-output models are fit for SELD task. We show that our solution
improves on the baseline system in most metrics on the STARSS22 Dataset.
- Abstract(参考訳): 本稿では,seld(sound event localization and detection)の新たな解である条件付きローカライザと分類器(coloc)について述べる。
解は2つの段階からなる: 局所化はまず行われ、次にローカライザの出力によって条件付けられた分類が続く。
未知数の情報源の問題を解決するため、シーケンシャル集合生成(ssg)から借用したアイデアを取り入れた。
どちらのモデルもSELDnetのようなCRNNだが、出力は単一である。
このような2つの単一出力モデルがsuldタスクに適していることを推論する。
我々は,STARSS22データセット上のほとんどの指標において,ベースラインシステムの改善を図っている。
関連論文リスト
- SELD-Mamba: Selective State-Space Model for Sound Event Localization and Detection with Source Distance Estimation [21.82296230219289]
選択状態空間モデルであるMambaを利用するSELD-Mambaと呼ばれるSELDのネットワークアーキテクチャを提案する。
本研究では,イベント独立ネットワークV2(EINV2)を基本フレームワークとして採用し,コンバータブロックを双方向のMambaブロックに置き換える。
本研究では,2段階の訓練手法を実装し,第1段階は音事象検出(SED)とDoAの方向推定損失に着目し,第2段階は音源距離推定(SDE)の損失を再導入する。
論文 参考訳(メタデータ) (2024-08-09T13:26:08Z) - Learning to Visually Localize Sound Sources from Mixtures without Prior Source Knowledge [14.801564966406486]
マルチサウンド音源定位タスクの目標は、混合音からの音源を個別にローカライズすることである。
そこで本研究では,音源数に関する事前知識を必要とせずに,複数音源の局所化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T06:27:50Z) - Rethinking the Localization in Weakly Supervised Object Localization [51.29084037301646]
弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり、困難なタスクの1つである。
最近、WSOLを2つの部分(クラスに依存しないオブジェクトのローカライゼーションとオブジェクトの分類)に分割することが、このタスクの最先端のパイプラインになっている。
本研究では,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-08-11T14:38:51Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Iterative Sound Source Localization for Unknown Number of Sources [57.006589498243336]
終端基準を満たすまで、各音源のDOAをしきい値なしで反復的に抽出できるISSLと呼ばれる反復音源定位手法を提案する。
我々のISSLは、既存のしきい値ベースのアルゴリズムと比較して、DOA推定とソース番号検出の両方で大幅な性能改善を実現しています。
論文 参考訳(メタデータ) (2022-06-24T13:19:44Z) - Locate This, Not That: Class-Conditioned Sound Event DOA Estimation [50.74947937253836]
我々は,すべてのクラスに常に興味を持っていないような状況に対して,クラス条件のSELDモデルを提案する。
このクラス条件SELDモデルは、音ファイルから空間的特徴とスペクトル的特徴を入力として、また、現在私たちが関心を持っているクラスを示す1ホットベクトルである。
論文 参考訳(メタデータ) (2022-03-08T16:49:15Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - Denoised Non-Local Neural Network for Semantic Segmentation [18.84185406522064]
クラス間ノイズとクラス内ノイズをそれぞれ除去するデノナイズド非ローカネットワーク(デノナイズドNL)を提案する。
提案したNLは,都市景観における83.5%,46.69% mIoU,ADE20Kの最先端性能を達成できる。
論文 参考訳(メタデータ) (2021-10-27T06:16:31Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。