論文の概要: What Makes Sound Event Localization and Detection Difficult? Insights
from Error Analysis
- arxiv url: http://arxiv.org/abs/2107.10469v1
- Date: Thu, 22 Jul 2021 06:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 21:24:40.796834
- Title: What Makes Sound Event Localization and Detection Difficult? Insights
from Error Analysis
- Title(参考訳): 音響イベントの定位と検出が困難になる理由
エラー分析からの洞察
- Authors: Thi Ngoc Tho Nguyen and Karn N. Watcharasupat and Zhen Jian Lee and
Ngoc Khanh Nguyen and Douglas L. Jones and Woon Seng Gan
- Abstract要約: 音事象の定位・検出(SELD)は,音事象の検出と方向推定のタスクを統合することを目的とした,新たな研究課題である。
SELDはノイズ、残響、干渉、ポリフォニー、非定常性といった両方のタスクの課題を継承する。
従来の研究では、残響環境における未知の干渉がSELDシステムの性能に大きな劣化を引き起こすことが示されている。
- 参考スコア(独自算出の注目度): 15.088901748728391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound event localization and detection (SELD) is an emerging research topic
that aims to unify the tasks of sound event detection and direction-of-arrival
estimation. As a result, SELD inherits the challenges of both tasks, such as
noise, reverberation, interference, polyphony, and non-stationarity of sound
sources. Furthermore, SELD often faces an additional challenge of assigning
correct correspondences between the detected sound classes and directions of
arrival to multiple overlapping sound events. Previous studies have shown that
unknown interferences in reverberant environments often cause major degradation
in the performance of SELD systems. To further understand the challenges of the
SELD task, we performed a detailed error analysis on two of our SELD systems,
which both ranked second in the team category of DCASE SELD Challenge, one in
2020 and one in 2021. Experimental results indicate polyphony as the main
challenge in SELD, due to the difficulty in detecting all sound events of
interest. In addition, the SELD systems tend to make fewer errors for the
polyphonic scenario that is dominant in the training set.
- Abstract(参考訳): sound event localization and detection(seld)は、音のイベント検出と方向推定のタスクを統合することを目的とした、新たな研究テーマである。
その結果、seddはノイズ、残響、干渉、ポリフォニー、音源の非定常性といった両方の課題を継承している。
さらに、suldは、検出された音響クラスと複数の重なり合う音イベントへの到着方向との間の正しい対応を割り当てるという追加の課題に直面することが多い。
以前の研究では、残響環境における未知の干渉がsldシステムの性能に大きな劣化を引き起こすことが示されている。
我々は,SELDタスクの課題をさらに理解するため,2020年と2021年の2つのSELDシステムにおいて,DCASE SELDチャレンジのチームカテゴリで2位,2021年の1位にランクインした2つのSELDシステムの詳細なエラー解析を行った。
実験の結果,ポリフォニーがSELDの主要な課題であることが明らかとなった。
さらに、SELDシステムでは、トレーニングセットで支配的なポリフォニックシナリオのエラーが少なくなる傾向がある。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Activity-Guided Industrial Anomalous Sound Detection against Interferences [8.864726245462908]
ソース分離(SS)と異常検出(AD)のフレームワークであるSSADを提案する。
SSADは、(i)アクティビティインフォームドSS、(i)アクティビティインフォームドSS、(ii)2ステップマスキング、および(ii)マシンアクティビティに沿った異常を強調して異常検出を堅牢化する2つのコンポーネントから構成される。
実験により,SSADはクリーン信号に完全アクセス可能なベースラインに匹敵する精度を達成し,SSADは劣化信号と活動情報のみを提供することを示した。
論文 参考訳(メタデータ) (2024-09-03T13:26:25Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Sound Event Detection and Localization with Distance Estimation [4.139846693958608]
3D SELDは、音事象とその対応方向(DOA)を識別する複合作業である
本研究では,SELDコア内に距離推定を統合する2つの方法について検討する。
以上の結果から,音事象検出やDOA推定における性能劣化を伴わずに3D SELDを行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T14:34:16Z) - Robust Tiny Object Detection in Aerial Images amidst Label Noise [50.257696872021164]
本研究は,ノイズラベル管理下での微小物体検出の問題に対処する。
本稿では,DN-TOD(Denoising Tiny Object Detector)を提案する。
本手法は,1段と2段の両方のオブジェクト検出パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-01-16T02:14:33Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Few-shot bioacoustic event detection at the DCASE 2022 challenge [0.0]
わずかにラベル付き例があるにも関わらず、音声イベント検出は音イベントを検出するタスクである。
本稿では,DCASE 2022チャレンジに含まれるバイオアコースティック音響イベント検出タスクの第2版の概要について述べる。
最も高いFスコアは、評価セットの60%であり、昨年の版よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-07-14T09:33:47Z) - Description and Discussion on DCASE 2021 Challenge Task 2: Unsupervised
Anomalous Sound Detection for Machine Condition Monitoring under Domain
Shifted Conditions [37.68195595947483]
本課題は, ASD システムの実用化における避けられない問題に焦点をあてる。
この課題の主な課題は、トレーニングと試験サンプルの音響特性が異なる未知の異常音を検出することである。
論文 参考訳(メタデータ) (2021-06-08T16:26:10Z) - Multi-Scale One-Class Recurrent Neural Networks for Discrete Event
Sequence Anomaly Detection [63.825781848587376]
本稿では,離散イベントシーケンス中の異常を検出する1クラスリカレントニューラルネットワークOC4Seqを提案する。
具体的には、OC4Seqは離散イベントシーケンスを遅延空間に埋め込み、異常を容易に検出することができる。
論文 参考訳(メタデータ) (2020-08-31T04:48:22Z) - Deep Dense and Convolutional Autoencoders for Unsupervised Anomaly
Detection in Machine Condition Sounds [55.18259748448095]
本報告では,DCASE 2020 チャレンジの第2タスクのために開発された2つの手法について述べる。
この課題には、異常音を検出する教師なしの学習が含まれており、トレーニングプロセス中に通常の機械作業条件サンプルのみが利用可能である。
この2つの手法は、メルスペクトグラム処理された音響特徴を用いた密集的および畳み込み的アーキテクチャに基づくディープオートエンコーダを含む。
論文 参考訳(メタデータ) (2020-06-18T10:49:49Z) - Description and Discussion on DCASE2020 Challenge Task2: Unsupervised
Anomalous Sound Detection for Machine Condition Monitoring [36.60410256763345]
本稿では,DCASE 2020 Challenge Task 2: Unsupervised Detection of Anomalous Sounds for Machine Condition Monitoringの結果を紹介する。
異常音検出(ASD)の目的は、対象機械から放射される音が正常か異常かを特定することである。
論文 参考訳(メタデータ) (2020-06-10T13:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。