論文の概要: Microphone Conversion: Mitigating Device Variability in Sound Event
Classification
- arxiv url: http://arxiv.org/abs/2401.06913v1
- Date: Fri, 12 Jan 2024 21:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:42:06.095838
- Title: Microphone Conversion: Mitigating Device Variability in Sound Event
Classification
- Title(参考訳): マイクロホン変換:音響イベント分類におけるデバイス変動の緩和
- Authors: Myeonghoon Ryu, Hongseok Oh, Suji Lee and Han Park
- Abstract要約: 本稿では,CycleGANを用いたデバイス変動に対する音事象分類(SEC)システムのレジリエンスを高めるための新しい拡張手法を提案する。
本手法は,入力スペクトログラムを異なるデバイスに記録したかのように変換することで,トレーニングデータの限られたデバイス多様性に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we introduce a new augmentation technique to enhance the
resilience of sound event classification (SEC) systems against device
variability through the use of CycleGAN. We also present a unique dataset to
evaluate this method. As SEC systems become increasingly common, it is crucial
that they work well with audio from diverse recording devices. Our method
addresses limited device diversity in training data by enabling unpaired
training to transform input spectrograms as if they are recorded on a different
device. Our experiments show that our approach outperforms existing methods in
generalization by 5.2% - 11.5% in weighted f1 score. Additionally, it surpasses
the current methods in adaptability across diverse recording devices by
achieving a 6.5% - 12.8% improvement in weighted f1 score.
- Abstract(参考訳): 本研究では,音イベント分類(sec)システムのサイクガン利用によるデバイス変動に対する弾力性を向上させるための新しい拡張手法を提案する。
また,本手法を評価するためのユニークなデータセットも提示する。
SECのシステムはますます一般的になってきており、様々な録音装置のオーディオとうまく連携することが重要である。
本手法は,入力スペクトログラムを異なるデバイスに記録したかのように変換することで,トレーニングデータの限られたデバイス多様性に対処する。
実験の結果,本手法は重み付きf1スコアの5.2%から11.5%の既存手法よりも優れていた。
さらに、重み付けされたf1スコアを6.5%から12.8%改善することで、様々な記録装置にまたがる適応性の現在の方法を超えている。
関連論文リスト
- Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation [0.0]
本稿では,デバイス変動に対する音響イベント分類システムのレジリエンスを高めるための統合生成フレームワークを提案する。
提案手法は最先端の手法を2.6%向上させ, マクロ平均F1スコアの変動率を0.8%低減する。
論文 参考訳(メタデータ) (2024-10-23T23:10:09Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Device-Robust Acoustic Scene Classification via Impulse Response
Augmentation [5.887969742827488]
CNNと音響スペクトログラム変換器を用いた音響シーン分類におけるDIR増強の効果について検討する。
その結果、DIRの分離による拡張は、最先端のFreq-MixStyleと同様に動作することがわかった。
また、DIR増幅とFreq-MixStyleは相補的であり、トレーニング中に見えないデバイスによって記録された信号に対して、新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-12T14:12:56Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - SingAug: Data Augmentation for Singing Voice Synthesis with
Cycle-consistent Training Strategy [69.24683717901262]
深層学習に基づく歌唱音声合成システム(SVS)は、より優れた品質の歌唱を柔軟に生成することが実証されている。
本研究では,SVSシステムのトレーニングを促進するために,さまざまなデータ拡張手法について検討する。
トレーニングをさらに安定させるために,サイクル一貫性トレーニング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-31T12:50:10Z) - Improving Speech Recognition on Noisy Speech via Speech Enhancement with
Multi-Discriminators CycleGAN [41.88097793717185]
本稿では,入力音声の雑音を低減するために,複数識別器CycleGANという新しい手法を提案する。
トレーニングデータの均質な部分集合上で複数のジェネレータを訓練することは、訓練データに対して1つのジェネレータを訓練するよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-12T19:56:34Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。