論文の概要: Domain Generalization with Relaxed Instance Frequency-wise Normalization
for Multi-device Acoustic Scene Classification
- arxiv url: http://arxiv.org/abs/2206.12513v1
- Date: Fri, 24 Jun 2022 23:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 09:59:06.782857
- Title: Domain Generalization with Relaxed Instance Frequency-wise Normalization
for Multi-device Acoustic Scene Classification
- Title(参考訳): 多重デバイス音響シーン分類における周波数ワイド正規化を用いた領域一般化
- Authors: Byeonggeun Kim, Seunghan Yang, Jangho Kim, Hyunsin Park, Juntae Lee,
Simyung Chang
- Abstract要約: 音声機能におけるドメイン関連情報は、チャネル統計よりも周波数統計において支配的である。
周波数軸に沿ったプラグアンドプレイで明示的な正規化モジュールであるRelaxed Instance Frequency-wise Normalization (RFN)を紹介する。
RFNは、有用な識別情報の望ましくない損失を緩和しつつ、オーディオ機能におけるインスタンス固有のドメインの不一致を解消することができる。
- 参考スコア(独自算出の注目度): 18.186932959605247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While using two-dimensional convolutional neural networks (2D-CNNs) in image
processing, it is possible to manipulate domain information using channel
statistics, and instance normalization has been a promising way to get
domain-invariant features. However, unlike image processing, we analyze that
domain-relevant information in an audio feature is dominant in frequency
statistics rather than channel statistics. Motivated by our analysis, we
introduce Relaxed Instance Frequency-wise Normalization (RFN): a plug-and-play,
explicit normalization module along the frequency axis which can eliminate
instance-specific domain discrepancy in an audio feature while relaxing
undesirable loss of useful discriminative information. Empirically, simply
adding RFN to networks shows clear margins compared to previous domain
generalization approaches on acoustic scene classification and yields improved
robustness for multiple audio devices. Especially, the proposed RFN won the
DCASE2021 challenge TASK1A, low-complexity acoustic scene classification with
multiple devices, with a clear margin, and RFN is an extended work of our
technical report.
- Abstract(参考訳): 画像処理に2次元畳み込みニューラルネットワーク(2D-CNN)を用いる場合、チャネル統計を用いてドメイン情報を操作することが可能であり、インスタンスの正規化はドメイン不変の機能を得るための有望な方法である。
しかし、画像処理とは異なり、音声特徴の領域関連情報はチャネル統計よりも周波数統計において支配的であることを解析する。
本稿では,音声特徴量におけるインスタンス固有のドメインの不一致を解消し,有用な識別情報の不要な損失を緩和する,プラグアンドプレイで明示的な正規化モジュールであるRelaxed Instance Frequency-wise Normalization (RFN)を紹介した。
経験的に、ネットワークにrfnを追加するだけで、音響シーン分類の以前のドメイン一般化アプローチに比べて明確なマージンを示し、複数のオーディオデバイスのロバスト性が向上する。
特に,提案したRFNは,複数のデバイスを用いた低複雑さ音響シーン分類であるDCASE2021チャレンジTASK1Aに勝利し,RFNは我々の技術報告の延長である。
関連論文リスト
- Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - FAN-Net: Fourier-Based Adaptive Normalization For Cross-Domain Stroke
Lesion Segmentation [17.150527504559594]
フーリエ適応正規化(FAN)を組み込んだU-NetベースのセグメンテーションネットワークであるFAN-Netを提案する。
9地点のMR画像からなるATLASデータセットの実験結果は,ベースライン法と比較して提案したFAN-Netの優れた性能を示している。
論文 参考訳(メタデータ) (2023-04-23T06:58:21Z) - Cross-domain Voice Activity Detection with Self-Supervised
Representations [9.02236667251654]
音声活動検出(Voice Activity Detection, VAD)は、音声信号の音声区間を検出することを目的とする。
現在の最先端の手法は、音響に直接含まれている特徴を活用するニューラルネットワークのトレーニングに重点を置いている。
自己監視学習(SSL)に基づく表現は,異なる領域に適応可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T14:53:44Z) - Few-shot One-class Domain Adaptation Based on Frequency for Iris
Presentation Attack Detection [33.41823375502942]
アイリス提示攻撃検知(PAD)はアイリス認識システムの信頼性と安全性を確保するために大きな成功を収めた。
既存の手法のほとんどは、空間領域における識別的特徴を利用して、データセット内設定下での優れた性能を報告している。
Few-shot One-class Domain Adaptation (FODA) と呼ばれる新しいドメイン適応方式を提案する。
論文 参考訳(メタデータ) (2022-04-01T11:55:06Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation
Localization [49.521622399483846]
汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。
提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
論文 参考訳(メタデータ) (2021-08-10T08:22:05Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Robust Multi-channel Speech Recognition using Frequency Aligned Network [23.397670239950187]
我々は、堅牢な自動音声認識に周波数整列ネットワークを用いる。
周波数整列ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大で18%低減することを示す。
論文 参考訳(メタデータ) (2020-02-06T21:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。