論文の概要: Spatial mixup: Directional loudness modification as data augmentation
for sound event localization and detection
- arxiv url: http://arxiv.org/abs/2110.06126v1
- Date: Tue, 12 Oct 2021 16:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 15:28:00.664301
- Title: Spatial mixup: Directional loudness modification as data augmentation
for sound event localization and detection
- Title(参考訳): 空間ミックスアップ:音のイベントの定位と検出のためのデータ拡張としての方向的ラウドネス修正
- Authors: Ricardo Falcon-Perez, Kazuki Shimada, Yuichiro Koyama, Shusuke
Takahashi, Yuki Mitsufuji
- Abstract要約: データ拡張のためのパラメトリック空間音響効果の応用として空間混合を提案する。
修正は特定の方向から到着するシグナルを増強または抑制するが、効果は顕著ではない。
この手法はDCASE 2021 Task 3のデータセットを用いて評価され、空間混合により非拡張ベースライン上での性能が向上する。
- 参考スコア(独自算出の注目度): 9.0259157539478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation methods have shown great importance in diverse supervised
learning problems where labeled data is scarce or costly to obtain. For sound
event localization and detection (SELD) tasks several augmentation methods have
been proposed, with most borrowing ideas from other domains such as images,
speech, or monophonic audio. However, only a few exploit the spatial properties
of a full 3D audio scene. We propose Spatial Mixup, as an application of
parametric spatial audio effects for data augmentation, which modifies the
directional properties of a multi-channel spatial audio signal encoded in the
ambisonics domain. Similarly to beamforming, these modifications enhance or
suppress signals arriving from certain directions, although the effect is less
pronounced. Therefore enabling deep learning models to achieve invariance to
small spatial perturbations. The method is evaluated with experiments in the
DCASE 2021 Task 3 dataset, where spatial mixup increases performance over a
non-augmented baseline, and compares to other well known augmentation methods.
Furthermore, combining spatial mixup with other methods greatly improves
performance.
- Abstract(参考訳): データ拡張手法はラベル付きデータが少ない、あるいはコストがかかる様々な教師付き学習問題において非常に重要である。
音声イベントのローカライゼーションと検出(SELD)タスクには,画像や音声,モノフォニックオーディオなど,他の領域からのアイデアの借用など,いくつかの拡張手法が提案されている。
しかし、完全な3Dオーディオシーンの空間的特性を利用するのはごくわずかである。
本研究では,データ拡張のためのパラメトリック空間音声効果の応用として,アンビソニックス領域で符号化されたマルチチャネル空間音声信号の指向性を変化させる空間ミックスアップを提案する。
ビームフォーミングと同様に、これらの修正は特定の方向から来る信号を強化または抑制するが、効果は少ない。
そのため、深層学習モデルで小さな空間摂動に不変性を達成できる。
この手法はDCASE 2021 Task 3のデータセットを用いて評価され、空間混合により非拡張ベースラインの性能が向上し、他のよく知られた拡張手法と比較される。
さらに、空間混合と他の手法を組み合わせることにより、性能が大幅に向上する。
関連論文リスト
- Low-light Stereo Image Enhancement and De-noising in the Low-frequency
Information Enhanced Image Space [5.1569866461097185]
同時に高音化・低音化を行う手法が提案されている。
低周波情報拡張モジュール (IEM) は雑音を抑え, 新たな画像空間を創出するために提案される。
長距離空間依存を符号化するために,チャネル間および空間コンテキスト情報マイニングモジュール(CSM)を提案する。
エンコーダ-デコーダ構造が構築され、クロスビューとクロススケールな特徴相互作用が組み込まれている。
論文 参考訳(メタデータ) (2024-01-15T15:03:32Z) - Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios [11.811571392419324]
音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
論文 参考訳(メタデータ) (2023-12-17T16:12:35Z) - Exploring Self-Supervised Contrastive Learning of Spatial Sound Event
Representation [21.896817015593122]
MC-SimCLRは、ラベルのない空間オーディオから、共同スペクトルと空間表現を学習する。
本稿では,様々なレベルの音声特徴を付加するマルチレベルデータ拡張パイプラインを提案する。
その結果,学習表現上の線形層は,事象分類精度と局所化誤差の両方の観点から,教師付きモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-27T18:23:03Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Blind Room Parameter Estimation Using Multiple-Multichannel Speech
Recordings [37.145413836886455]
部屋の幾何学的パラメータや音響的パラメータを知ることは、オーディオ拡張現実、音声のデバーベレーション、音声法医学などの応用に有用である。
室内の総表面積,体積,および周波数依存残響時間と平均表面吸収を共同で推定する問題について検討した。
単一チャネルとチャネル間キューの両方を活用する新しい畳み込みニューラルネットワークアーキテクチャを提案し、大規模で現実的なシミュレーションデータセットでトレーニングする。
論文 参考訳(メタデータ) (2021-07-29T08:51:49Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。