論文の概要: Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation
- arxiv url: http://arxiv.org/abs/2410.18322v1
- Date: Wed, 23 Oct 2024 23:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:48:30.159999
- Title: Unified Microphone Conversion: Many-to-Many Device Mapping via Feature-wise Linear Modulation
- Title(参考訳): 統一マイクロホン変換:特徴量線形変調による多対多デバイスマッピング
- Authors: Myeonghoon Ryu, Hongseok Oh, Suji Lee, Han Park,
- Abstract要約: 本稿では,デバイス変動に対する音響イベント分類システムのレジリエンスを高めるための統合生成フレームワークを提案する。
提案手法は最先端の手法を2.6%向上させ, マクロ平均F1スコアの変動率を0.8%低減する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this study, we introduce Unified Microphone Conversion, a unified generative framework to enhance the resilience of sound event classification systems against device variability. Building on the limitations of previous works, we condition the generator network with frequency response information to achieve many-to-many device mapping. This approach overcomes the inherent limitation of CycleGAN, requiring separate models for each device pair. Our framework leverages the strengths of CycleGAN for unpaired training to simulate device characteristics in audio recordings and significantly extends its scalability by integrating frequency response related information via Feature-wise Linear Modulation. The experiment results show that our method outperforms the state-of-the-art method by 2.6% and reducing variability by 0.8% in macro-average F1 score.
- Abstract(参考訳): 本研究では,デバイス変動に対する音声イベント分類システムのレジリエンスを高めるための統一的生成フレームワークであるUnified Microphone Conversionを紹介する。
従来の作業の限界に基づいて、多対多のデバイスマッピングを実現するために、周波数応答情報付きジェネレータネットワークを条件付けする。
このアプローチはCycleGAN固有の制限を克服し、各デバイスペアごとに別々のモデルを必要とする。
本フレームワークは、CycleGANの強みを活用して、音声記録におけるデバイス特性をシミュレートし、特徴量線形変調による周波数応答関連情報の統合によりスケーラビリティを著しく拡張する。
実験の結果,提案手法は最先端の手法を2.6%向上し,マクロ平均F1スコアの変動率を0.8%低減することがわかった。
関連論文リスト
- Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture [11.063156506583562]
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインに比べて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T13:50:59Z) - Microphone Conversion: Mitigating Device Variability in Sound Event
Classification [0.0]
本稿では,CycleGANを用いたデバイス変動に対する音事象分類(SEC)システムのレジリエンスを高めるための新しい拡張手法を提案する。
本手法は,入力スペクトログラムを異なるデバイスに記録したかのように変換することで,トレーニングデータの限られたデバイス多様性に対処する。
論文 参考訳(メタデータ) (2024-01-12T21:59:01Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Device-Robust Acoustic Scene Classification via Impulse Response
Augmentation [5.887969742827488]
CNNと音響スペクトログラム変換器を用いた音響シーン分類におけるDIR増強の効果について検討する。
その結果、DIRの分離による拡張は、最先端のFreq-MixStyleと同様に動作することがわかった。
また、DIR増幅とFreq-MixStyleは相補的であり、トレーニング中に見えないデバイスによって記録された信号に対して、新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-12T14:12:56Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Two-Stage Augmentation and Adaptive CTC Fusion for Improved Robustness
of Multi-Stream End-to-End ASR [35.7018440502825]
マルチストリームパラダイムでは、さまざまな未知の単一ストリーム条件やストリーム間ダイナミクスを扱うことにより、ロバスト性を改善する。
ミスマッチシナリオに着目した2段階拡張方式を提案する。
従来の訓練戦略と比較して、単語誤り率を29.7~59.3%削減するなど、大幅な改善が報告されている。
論文 参考訳(メタデータ) (2021-02-05T08:36:58Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Audio-Visual Decision Fusion for WFST-based and seq2seq Models [3.2771898634434997]
雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる
提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。
提案手法は音響のみのWERよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-01-29T13:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。