論文の概要: DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2511.18421v1
- Date: Sun, 23 Nov 2025 12:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.833143
- Title: DHAuDS: A Dynamic and Heterogeneous Audio Benchmark for Test-Time Adaptation
- Title(参考訳): DHAuDS:テスト時間適応のための動的で不均一なオーディオベンチマーク
- Authors: Weichuang Shao, Iman Yi Liao, Tomas Henrique Bode Maul, Tissa Chandesa,
- Abstract要約: 音声・音声分析におけるTTA (Test-Time Adaptation) 研究は、しばしば定型ないし不一致な雑音条件下でモデルを評価する。
本稿では,より現実的で多様な音響シフトの下でTTAアプローチを評価するためのベンチマークであるDHAuDSを提案する。
DHAuDSは、UrbanSound8K-C、SpeechCommandsV2-C、VocalSound-C、ReefSet-Cの4つの標準ベンチマークで構成されている。
- 参考スコア(独自算出の注目度): 0.3728263002609659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio classifiers frequently face domain shift, when models trained on one dataset lose accuracy on data recorded in acoustically different conditions. Previous Test-Time Adaptation (TTA) research in speech and sound analysis often evaluates models under fixed or mismatched noise settings, that fail to mimic real-world variability. To overcome these limitations, this paper presents DHAuDS (Dynamic and Heterogeneous Audio Domain Shift), a benchmark designed to assess TTA approaches under more realistic and diverse acoustic shifts. DHAuDS comprises four standardized benchmarks: UrbanSound8K-C, SpeechCommandsV2-C, VocalSound-C, and ReefSet-C, each constructed with dynamic corruption severity levels and heterogeneous noise types to simulate authentic audio degradation scenarios. The framework defines 14 evaluation criteria for each benchmark (8 for UrbanSound8K-C), resulting in 50 unrepeated criteria (124 experiments) that collectively enable fair, reproducible, and cross-domain comparison of TTA algorithms. Through the inclusion of dynamic and mixed-domain noise settings, DHAuDS offers a consistent and publicly reproducible testbed to support ongoing studies in robust and adaptive audio modeling.
- Abstract(参考訳): オーディオ分類器は、あるデータセットでトレーニングされたモデルが音響的に異なる条件で記録されたデータの精度を失うとき、しばしばドメインシフトに直面します。
音声・音声分析におけるTTA研究は、実世界の変動を模倣することができない、固定的または不一致のノイズ設定下でモデルを評価することがしばしばある。
これらの制約を克服するため、より現実的で多様な音響シフトの下でTTAアプローチを評価するためのベンチマークであるDHAuDS(Dynamic and Heterogeneous Audio Domain Shift)を提案する。
DHAuDSには、UrbanSound8K-C、SpeechCommandsV2-C、VocalSound-C、ReefSet-Cの4つの標準ベンチマークが含まれている。
このフレームワークは、ベンチマーク毎に14の評価基準(UrbanSound8K-C 8)を定義し、結果として50の未繰り返し基準(124の実験)が、TTAアルゴリズムの公平で再現性があり、クロスドメインな比較を可能にする。
DHAuDSは、動的および混合ドメインノイズ設定を含めることで、堅牢で適応的なオーディオモデリングにおける継続的な研究を支援するために、一貫した、公に再現可能なテストベッドを提供する。
関連論文リスト
- An Investigation of Test-time Adaptation for Audio Classification under Background Noise [0.0]
本研究では,TTA(Test-Time Adaptation)を用いた背景雑音による領域シフトによる音声分類の問題に対処することを目的とする。
我々は、TTTとTENTの2つの一般的なTTA手法と最先端のCoNMix法を採用し、2つのポピュラーな音声分類データセットにおいてそれぞれの性能について検討する。
実験の結果,提案した改良型CoNMixはドメインシフト時の分類精度が最も高かった。
論文 参考訳(メタデータ) (2025-07-21T11:44:24Z) - Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。
本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。
本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文 参考訳(メタデータ) (2024-09-03T02:29:01Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。
本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。
本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-14T06:22:08Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Dynamic Layer Customization for Noise Robust Speech Emotion Recognition
in Heterogeneous Condition Training [16.807298318504156]
ノイズ条件毎に,サンプルを特殊特徴エンコーダに動的にルーティングすることで,性能を向上できることを示す。
時間的順序付けを動的にルーティングすることで,これらの改善をマルチモーダル設定に拡張する。
論文 参考訳(メタデータ) (2020-10-21T18:07:32Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。