論文の概要: An Investigation of Test-time Adaptation for Audio Classification under Background Noise
- arxiv url: http://arxiv.org/abs/2507.15523v1
- Date: Mon, 21 Jul 2025 11:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.378436
- Title: An Investigation of Test-time Adaptation for Audio Classification under Background Noise
- Title(参考訳): 背景雑音下における音声分類のためのテスト時間適応の検討
- Authors: Weichuang Shao, Iman Yi Liao, Tomas Henrique Bode Maul, Tissa Chandesa,
- Abstract要約: 本研究では,TTA(Test-Time Adaptation)を用いた背景雑音による領域シフトによる音声分類の問題に対処することを目的とする。
我々は、TTTとTENTの2つの一般的なTTA手法と最先端のCoNMix法を採用し、2つのポピュラーな音声分類データセットにおいてそれぞれの性能について検討する。
実験の結果,提案した改良型CoNMixはドメインシフト時の分類精度が最も高かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain shift is a prominent problem in Deep Learning, causing a model pre-trained on a source dataset to suffer significant performance degradation on test datasets. This research aims to address the issue of audio classification under domain shift caused by background noise using Test-Time Adaptation (TTA), a technique that adapts a pre-trained model during testing using only unlabelled test data before making predictions. We adopt two common TTA methods, TTT and TENT, and a state-of-the-art method CoNMix, and investigate their respective performance on two popular audio classification datasets, AudioMNIST (AM) and SpeechCommands V1 (SC), against different types of background noise and noise severity levels. The experimental results reveal that our proposed modified version of CoNMix produced the highest classification accuracy under domain shift (5.31% error rate under 10 dB exercise bike background noise and 12.75% error rate under 3 dB running tap background noise for AM) compared to TTT and TENT. The literature search provided no evidence of similar works, thereby motivating the work reported here as the first study to leverage TTA techniques for audio classification under domain shift.
- Abstract(参考訳): ドメインシフトはディープラーニングにおいて大きな問題であり、ソースデータセットで事前トレーニングされたモデルが、テストデータセットで大幅なパフォーマンス低下を被る原因となっている。
本研究の目的は,テスト時間適応(TTA)を用いた背景雑音による領域シフトによる音声分類の問題に対処することである。
我々は、TTTとTENTの2つの一般的なTTA手法と最先端のCoNMix法を採用し、異なる種類の背景雑音および雑音重大度レベルに対して、AudioMNIST(AM)とSpeechCommands V1(SC)の2つのポピュラーな音声分類データセット上で、それぞれの性能について検討する。
実験結果から,提案した改良型CoNMixは,TTTおよびTENTと比較して,ドメインシフト下での最も高い分類精度(10dB運動時のバックグラウンドノイズでは5.31%,3dBランニング時のバックグラウンドノイズでは12.75%)を示した。
文献検索は類似した研究の証拠を示さず、ドメインシフト下での音声分類にTTA技術を利用した最初の研究としてここで報告された研究を動機づけた。
関連論文リスト
- Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks [1.261491746208123]
本研究は,ラベルノイズが勾配ブースト決定木(GBDT)に及ぼす影響について検討する。
GBDTを用いた深層学習から2つのノイズ検出手法を適用し,Gradientsと呼ばれる新しい検出手法を導入する。
ノイズ検出手法は,全てのノイズレベルにわたるアダルトデータセットにおいて,99%以上のノイズ検出精度で,最先端のノイズ検出を実現する。
論文 参考訳(メタデータ) (2024-09-13T09:09:24Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Identifying Training Stop Point with Noisy Labeled Data [0.0]
テスト精度(MOTA)に近いトレーニング停止点(TSP)を見つけるためのアルゴリズムを開発しています。
我々は,CIFAR-10,CIFAR-100,実世界の雑音データを用いて,アルゴリズム(AutoTSP)のロバスト性を検証した。
論文 参考訳(メタデータ) (2020-12-24T20:07:30Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。