論文の概要: Binaural Signal Representations for Joint Sound Event Detection and
Acoustic Scene Classification
- arxiv url: http://arxiv.org/abs/2209.05900v1
- Date: Tue, 13 Sep 2022 11:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:41:30.693779
- Title: Binaural Signal Representations for Joint Sound Event Detection and
Acoustic Scene Classification
- Title(参考訳): 複合音響イベント検出と音響シーン分類のためのバイノーラル信号表現
- Authors: Daniel Aleksander Krause, Annamaria Mesaros
- Abstract要約: 音響事象検出 (SED) と音響シーン分類 (ASC) は、音響シーン解析の研究において重要な部分を占める、広く研究されている2つのオーディオタスクである。
音響イベントと音響シーンの共有情報を考えると、両方のタスクを共同で行うことは、複雑なマシンリスニングシステムの自然な部分である。
本稿では,SEDとASCを併用した共同深層ニューラルネットワーク(DNN)モデルの訓練における空間オーディオ機能の有用性について検討する。
- 参考スコア(独自算出の注目度): 3.300149824239397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sound event detection (SED) and Acoustic scene classification (ASC) are two
widely researched audio tasks that constitute an important part of research on
acoustic scene analysis. Considering shared information between sound events
and acoustic scenes, performing both tasks jointly is a natural part of a
complex machine listening system. In this paper, we investigate the usefulness
of several spatial audio features in training a joint deep neural network (DNN)
model performing SED and ASC. Experiments are performed for two different
datasets containing binaural recordings and synchronous sound event and
acoustic scene labels to analyse the differences between performing SED and ASC
separately or jointly. The presented results show that the use of specific
binaural features, mainly the Generalized Cross Correlation with Phase
Transform (GCC-phat) and sines and cosines of phase differences, result in a
better performing model in both separate and joint tasks as compared with
baseline methods based on logmel energies only.
- Abstract(参考訳): 音響事象検出 (SED) と音響シーン分類 (ASC) は、音響シーン解析の研究において重要な部分を占める2つの研究課題である。
音響イベントと音響シーンの共有情報を考えると、両方のタスクを共同で行うことは、複雑なマシンリスニングシステムの自然な部分である。
本稿では,SEDとASCを併用した共同深層ニューラルネットワーク(DNN)モデルの訓練における空間オーディオ機能の有用性について検討する。
バイノーラル録音と同期音イベントと音響シーンラベルを含む2つの異なるデータセットに対して実験を行い、SEDとASCの違いを別々または共同で分析する。
以上の結果から, 位相変換(gcc-phat)と相差のシネスおよびコサインとの共通交叉関係を主とする特定のバイノーラル特徴の利用は, 対数メルエネルギーのみに基づくベースライン法と比較して, 分離作業とジョイント作業の両方において, 優れた性能モデルとなることがわかった。
関連論文リスト
- Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Robust, General, and Low Complexity Acoustic Scene Classification
Systems and An Effective Visualization for Presenting a Sound Scene Context [53.80051967863102]
音響シーン分類(ASC)の包括的解析について述べる。
ASCベースラインと呼ばれる,創発的かつ低フットプリントのASCモデルを提案する。
次に、新しいディープニューラルネットワークアーキテクチャを提案することにより、ASCベースラインを改善する。
論文 参考訳(メタデータ) (2022-10-16T19:07:21Z) - Joint Direction and Proximity Classification of Overlapping Sound Events
from Binaural Audio [7.050270263489538]
本研究の目的は,録音からの関節近接と方向推定のいくつかの方法を検討することである。
音声の限界を考慮し,一組の指向性クラスを得るために,球面を角領域に分割する2つの手法を提案する。
出現源のオンセットとオフセットに関する時間情報を提供する共同タスクに近接および方向推定問題を結合する様々な方法を提案する。
論文 参考訳(メタデータ) (2021-07-26T08:48:46Z) - DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection [16.18806719313959]
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
論文 参考訳(メタデータ) (2021-06-29T09:18:30Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation [52.550684208734324]
音物体の視覚的接地と音声-視覚的音分離を共同学習できる循環的共学習パラダイムを提案する。
本稿では,提案フレームワークが両タスクの最近のアプローチを上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-05T17:30:41Z) - Investigations on Audiovisual Emotion Recognition in Noisy Conditions [43.40644186593322]
本稿では,異なる信号対雑音比で重畳ノイズを持つ2つの感情データセットについて検討する。
その結果、ノイズの多いデータにクリーンオーディオで訓練されたモデルを適用すると、パフォーマンスが大幅に低下します。
論文 参考訳(メタデータ) (2021-03-02T17:45:16Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Multi-label Sound Event Retrieval Using a Deep Learning-based Siamese
Structure with a Pairwise Presence Matrix [11.54047475139282]
最先端の音声イベント検索モデルは、シングルラベル音声記録に重点を置いている。
本稿では,シームズ構造とPairwise Presence Matrixを用いたDeep Learningアーキテクチャを提案する。
ネットワークはSONYC-USTデータセットを用いて訓練・評価され、シングルラベルとマルチラベルのサウンドスケープが記録される。
論文 参考訳(メタデータ) (2020-02-20T21:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。