論文の概要: Representation Matters in Randomized Smoothing for Audio Classification
- arxiv url: http://arxiv.org/abs/2606.04210v1
- Date: Tue, 02 Jun 2026 20:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.381091
- Title: Representation Matters in Randomized Smoothing for Audio Classification
- Title(参考訳): 音声分類のためのランダム化平滑化における表現事項
- Authors: Jong-Ik Park, Shreyas Chaudhari, José M. F. Moura, Carlee Joe-Wong,
- Abstract要約: ランダム化滑らか化はガウスノイズが加わったベクトル空間におけるロバスト性を証明する。
キーワードスポッティング(キーワードスポッティング)と環境音分類(環境音分類)の2つの音響ベンチマークにおいて,波形,特徴空間,処理後の平滑化について検討した。
- 参考スコア(独自算出の注目度): 30.521314184750867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Randomized smoothing (RS) certifies robustness in the vector space where Gaussian noise is added. In audio classification, this space is often not uniquely defined as standard pipelines normalize, range-control, and transform waveforms into log-mel or other spectral features. We show that direct RS is therefore under-specified unless the certified object and preprocessing policy are explicit. On two audio benchmarks, keyword spotting and environmental-sound classification, we study waveform, feature-space, and post-processed smoothing. Our diagnostics show why representation-aware reporting is necessary: at the same smoothing level $σ=0.0025$, the two datasets share the same median raw radius $.007996$, but different waveform energies yield different SNR-equivalent scales ($83.98$ vs. $90.97$ dB); log-mel smoothing gives higher positive-radius certified accuracy on environmental sounds ($68.42\%$ vs. $65.53\%$), certifying more examples with nonzero radius but over features rather than waveforms; and clipping or peak normalization changes the effective perturbation norm by roughly $230$--$351\times$. We therefore recommend that audio RS studies choose and report the task-specific certified object and perturbation model, including the perturbation location, gain policy, raw radius, and any post-noise geometry changes.
- Abstract(参考訳): ランダム化平滑化(RS)はガウスノイズが付加されるベクトル空間におけるロバスト性を証明する。
音声分類において、この空間は、標準パイプラインが正規化し、範囲制御し、波形を対数メルや他のスペクトル特徴に変換するため、一意に定義されないことが多い。
したがって、認証対象と事前処理ポリシーが明確でない限り、直接RSは不特定であることを示す。
キーワードスポッティング(キーワードスポッティング)と環境音分類(環境音分類)の2つの音響ベンチマークにおいて,波形,特徴空間,処理後の平滑化について検討した。
同じスムーシングレベルであるσ=0.0025$では、2つのデータセットは同じ中央値の生半径$.007996$を共有するが、異なる波形エネルギーは異なるSNR等価スケール(83.98$ vs. 90.97$ dB)を生成する。
そこで我々は,音声RS研究において,摂動位置,ゲインポリシー,生半径,およびその後の幾何変化を含む,タスク固有の認定対象と摂動モデルを選択し,報告することを推奨する。
関連論文リスト
- RRISE: Robust Radius Inference via a Surrogate Estimator [30.521314184750867]
我々はRSフレームワークRRISEを導入し、認証を学習したサロゲートを1つのフォワードパスに圧縮する。
CIFAR-100とTiny ImageNetでは、唯一のオフラインサロゲート方式が崩壊し、RRISEは1.23ドルから1.91タイムスを高い精度で達成した。
論文 参考訳(メタデータ) (2026-06-01T20:46:06Z) - Spectral Tempering for Embedding Compression in Dense Passage Retrieval [17.660889990235656]
最適スケーリング強度$$はグローバル定数ではないことを示す。
本研究では,適応的な$(k)$をコーパス固有スペクトルから直接導出する学習自由化手法であるSpectral Temperingを提案する。
論文 参考訳(メタデータ) (2026-03-19T10:01:32Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - Certified Adversarial Robustness Within Multiple Perturbation Bounds [38.3813286696956]
ランダムスムーシング(Randomized smoothing、RS)は、敵の攻撃に対するよく知られた防御である。
本研究では,複数の摂動境界に対して同時に認証された対向ロバスト性を改善することを目的としている。
論文 参考訳(メタデータ) (2023-04-20T16:42:44Z) - Double Sampling Randomized Smoothing [19.85592163703077]
二重サンプリングランダム化平滑化フレームワークを提案する。
サンプリングされた確率を、追加の滑らかな分布から利用して、以前の滑らかな分類器の堅牢性認証を強化する。
本研究では,DSRSが既存のデータセットよりも高いロバストラジイを常に異なる設定で証明していることを示す。
論文 参考訳(メタデータ) (2022-06-16T04:34:28Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Automatic Estimation of Intelligibility Measure for Consonants in Speech [44.02658023314131]
我々は、停止子音に対する畳み込みニューラルネットワーク(CNN)に基づく回帰モデルを訓練する。
本研究では,通常の聴覚 (NH) 耳に対して,共振器(CV) の音が知覚可能となる雑音比 (SNR) を推定する。
論文 参考訳(メタデータ) (2020-05-12T21:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。