論文の概要: Investigating the Sensitivity of Pre-trained Audio Embeddings to Common Effects
- arxiv url: http://arxiv.org/abs/2501.15900v1
- Date: Mon, 27 Jan 2025 09:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:55:20.417456
- Title: Investigating the Sensitivity of Pre-trained Audio Embeddings to Common Effects
- Title(参考訳): プレトレーニングオーディオ埋め込みの一般効果に対する感度の検討
- Authors: Victor Deng, Changhong Wang, Gael Richard, Brian McFee,
- Abstract要約: 広範に使用されている基礎モデルから抽出したオーディオ埋め込みの音響効果に対する感度について検討する。
パラメータ化音響効果を適用し,変形軌跡と埋め込み空間における効果強度の相関関係を解析した。
音響効果の強さが増大するにつれて、埋め込みが単調に動く方向が存在するが、変位を含む部分空間は概して高次元である。
- 参考スコア(独自算出の注目度): 4.202522944371801
- License:
- Abstract: In recent years, foundation models have significantly advanced data-driven systems across various domains. Yet, their underlying properties, especially when functioning as feature extractors, remain under-explored. In this paper, we investigate the sensitivity to audio effects of audio embeddings extracted from widely-used foundation models, including OpenL3, PANNs, and CLAP. We focus on audio effects as the source of sensitivity due to their prevalent presence in large audio datasets. By applying parameterized audio effects (gain, low-pass filtering, reverberation, and bitcrushing), we analyze the correlation between the deformation trajectories and the effect strength in the embedding space. We propose to quantify the dimensionality and linearizability of the deformation trajectories induced by audio effects using canonical correlation analysis. We find that there exists a direction along which the embeddings move monotonically as the audio effect strength increases, but that the subspace containing the displacements is generally high-dimensional. This shows that pre-trained audio embeddings do not globally linearize the effects. Our empirical results on instrument classification downstream tasks confirm that projecting out the estimated deformation directions cannot generally improve the robustness of pre-trained embeddings to audio effects.
- Abstract(参考訳): 近年、基礎モデルは様々な領域にまたがるデータ駆動システムを大きく進歩させてきた。
しかし、その基礎となる性質、特に特徴抽出器として機能する場合は、未探索のままである。
本稿では, OpenL3, PANNs, CLAPなど, 広く使用されている基礎モデルから抽出したオーディオ埋め込みの音響効果に対する感度について検討する。
我々は,大規模な音声データセットに広く存在するため,感度の源泉としての音響効果に着目する。
パラメータ化音響効果(利得,低域フィルタリング,残響,ビットクラッシング)を適用し,変形軌跡と埋め込み空間における効果強度の関係を解析した。
音響効果によって誘導される変形軌跡の次元性と線形化可能性について,正準相関解析を用いて定量化する。
音響効果の強さが増大するにつれて、埋め込みが単調に動く方向が存在するが、変位を含む部分空間は一般に高次元である。
このことは、事前訓練されたオーディオ埋め込みが、その効果をグローバルに線形化しないことを示している。
楽器分類タスクにおける実験結果から,推定変形方向を投影することは,音響効果に対する事前学習による組込みの堅牢性を向上させることはできないことが確認された。
関連論文リスト
- Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - A Study on Robustness to Perturbations for Representations of
Environmental Sound [16.361059909912758]
モノフォニック(UrbanSound8K)およびポリフォニック(SONYC UST)データセット上で,YAMNetとOpenL$3$の2つの埋め込みを評価した。
本研究では,音波信号に摂動を注入することによりチャネル効果を模倣し,新しい埋め込みのシフトを3つの距離で測定する。
論文 参考訳(メタデータ) (2022-03-20T01:04:38Z) - On Dynamic Noise Influence in Differentially Private Learning [102.6791870228147]
Private Gradient Descent (PGD)は一般的に使用されるプライベート学習フレームワークであり、差分プロトコルに基づいてノイズを発生する。
最近の研究では、emphdynamic privacy schedulesは最終イテレーションで改善できるが、そのようなスケジュールの有効性の理論は限られている。
本稿では,これらの重要な質問に答えるために,動的プライバシスケジュールにおけるノイズの影響を総合的に分析する。
論文 参考訳(メタデータ) (2021-01-19T02:04:00Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Exploring Quality and Generalizability in Parameterized Neural Audio
Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文 参考訳(メタデータ) (2020-06-10T00:52:08Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。