論文の概要: Locate This, Not That: Class-Conditioned Sound Event DOA Estimation
- arxiv url: http://arxiv.org/abs/2203.04197v1
- Date: Tue, 8 Mar 2022 16:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:21:12.861797
- Title: Locate This, Not That: Class-Conditioned Sound Event DOA Estimation
- Title(参考訳): class-conditioned sound event doa estimation (英語)
- Authors: Olga Slizovskaia, Gordon Wichern, Zhong-Qiu Wang, Jonathan Le Roux
- Abstract要約: 我々は,すべてのクラスに常に興味を持っていないような状況に対して,クラス条件のSELDモデルを提案する。
このクラス条件SELDモデルは、音ファイルから空間的特徴とスペクトル的特徴を入力として、また、現在私たちが関心を持っているクラスを示す1ホットベクトルである。
- 参考スコア(独自算出の注目度): 50.74947937253836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing systems for sound event localization and detection (SELD) typically
operate by estimating a source location for all classes at every time instant.
In this paper, we propose an alternative class-conditioned SELD model for
situations where we may not be interested in localizing all classes all of the
time. This class-conditioned SELD model takes as input the spatial and spectral
features from the sound file, and also a one-hot vector indicating the class we
are currently interested in localizing. We inject the conditioning information
at several points in our model using feature-wise linear modulation (FiLM)
layers. Through experiments on the DCASE 2020 Task 3 dataset, we show that the
proposed class-conditioned SELD model performs better in terms of common SELD
metrics than the baseline model that locates all classes simultaneously, and
also outperforms specialist models that are trained to locate only a single
class of interest. We also evaluate performance on the DCASE 2021 Task 3
dataset, which includes directional interference (sound events from classes we
are not interested in localizing) and notice especially strong improvement from
the class-conditioned model.
- Abstract(参考訳): 既存のseld(sound event localization and detection)システムは、通常、すべてのクラスのソース位置を瞬時に推定することで動作する。
本稿では,すべてのクラスを常にローカライズすることに関心が持たない状況に対して,別のクラス条件付きsuldモデルを提案する。
このクラス条件付きsuldモデルは、サウンドファイルから空間的およびスペクトル的特徴を入力とし、また、現在ローカライズに興味があるクラスを示す1つのホットベクターを入力します。
特徴量線形変調 (FiLM) 層を用いて, モデル内の複数の点で条件情報を注入する。
提案したクラス条件SELDモデルでは,DCASE 2020 Task 3データセットを用いた実験により,すべてのクラスを同時に検出するベースラインモデルよりも,共通のSELDメトリクスの点で優れた性能を示し,また,単一のクラスのみを識別するように訓練されたスペシャリストモデルよりも優れていた。
また,DCASE 2021 Task 3 データセットの性能評価を行った。このデータセットには,指向性干渉(ローカライズに興味のないクラスからの音声イベント)が含まれており,特にクラス条件モデルによる改善が顕著である。
関連論文リスト
- Large Language Models For Text Classification: Case Study And Comprehensive Review [0.3428444467046467]
各種言語モデル(LLM)の性能を,最先端のディープラーニングモデルや機械学習モデルと比較して評価する。
本研究は,提案手法に基づくモデル応答の有意な変動を明らかにした。
論文 参考訳(メタデータ) (2025-01-14T22:02:38Z) - LETS-C: Leveraging Language Embedding for Time Series Classification [15.520883566827608]
本稿では,時系列領域における言語モデリングの成功を活用するための代替手法を提案する。
言語埋め込みモデルを用いて時系列を埋め込み、その埋め込みを畳み込みニューラルネットワーク(CNN)と多層パーセプトロン(MLP)からなる単純な分類ヘッドと組み合わせる。
この結果から,言語エンコーダを用いて時系列データを埋め込むことで,高速な時系列分類を実現する上で有望な方向性が示唆された。
論文 参考訳(メタデータ) (2024-07-09T04:07:57Z) - Universal Semi-supervised Model Adaptation via Collaborative Consistency
Training [92.52892510093037]
我々は、Universal Semi-supervised Model Adaptation (USMA)と呼ばれる現実的で挑戦的なドメイン適応問題を導入する。
本稿では,2つのモデル間の予測整合性を規則化する協調的整合性トレーニングフレームワークを提案する。
実験により,いくつかのベンチマークデータセットにおける本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-07T08:19:40Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Learning to Discover and Detect Objects [43.52208526783969]
新たなクラス発見・検出・ローカライゼーション(NCDL)の課題に取り組む。
この設定では、よく観察されるクラスのオブジェクトのラベル付きソースデータセットを仮定する。
検出ネットワークをエンドツーエンドでトレーニングすることにより、さまざまなクラスに対してすべてのリージョン提案を分類することが可能になる。
論文 参考訳(メタデータ) (2022-10-19T17:59:55Z) - A Gating Model for Bias Calibration in Generalized Zero-shot Learning [18.32369721322249]
汎用ゼロショット学習(GZSL)は,補助情報のみを用いることで,見つからないクラスデータに一般化できるモデルを訓練することを目的とする。
GZSLの主な課題の1つは、トレーニング中に利用可能なクラスデータのみに過度に適合することに起因する、見かけたクラスに対するバイアス付きモデル予測である。
GZSLのための2ストリームオートエンコーダに基づくゲーティングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T16:41:06Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z) - Multi-label learning for dynamic model type recommendation [13.304462985219237]
本稿では,オンラインローカルプール(OLP)技術のための問題非依存型動的ベースクラス化モデルを提案する。
提案するフレームワークは,関連するモデルタイプセットを推奨するマルチラベルメタ分類器を構築する。
実験の結果、異なるデータ分布は局所的な範囲で異なるモデルタイプを好んだ。
論文 参考訳(メタデータ) (2020-04-01T16:42:12Z) - Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective [98.70226503904402]
現実世界のオブジェクトの周波数は、しばしば電力法則に従い、長い尾のクラス分布を持つデータセット間のミスマッチを引き起こす。
メタラーニング手法を用いて,クラス条件分布の違いを明示的に推定し,古典的なクラスバランス学習を強化することを提案する。
論文 参考訳(メタデータ) (2020-03-24T11:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。