Fugu-MT 論文翻訳(概要): Revisiting Acoustic Features for Robust ASR

論文の概要: Revisiting Acoustic Features for Robust ASR

arxiv url: http://arxiv.org/abs/2409.16399v1
Date: Tue, 24 Sep 2024 18:58:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 08:31:10.184011
Title: Revisiting Acoustic Features for Robust ASR
Title（参考訳）: ロバストASRの音響特性の再検討
Authors: Muhammad A. Shah, Bhiksha Raj,
Abstract要約: 生物学的聴覚知覚に触発された音響特性を発達させる先行研究のアプローチを再考する。本研究では、周波数マスキングと側方抑制の神経心理学的現象をシミュレートするために、周波数マスキング分光法(FreqMask)とガンマトン分光法(DoGSpec)の相違という2つの新しい音響特性を提案する。
参考スコア（独自算出の注目度）: 25.687120601256787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic Speech Recognition (ASR) systems must be robust to the myriad types of noises present in real-world environments including environmental noise, room impulse response, special effects as well as attacks by malicious actors (adversarial attacks). Recent works seek to improve accuracy and robustness by developing novel Deep Neural Networks (DNNs) and curating diverse training datasets for them, while using relatively simple acoustic features. While this approach improves robustness to the types of noise present in the training data, it confers limited robustness against unseen noises and negligible robustness to adversarial attacks. In this paper, we revisit the approach of earlier works that developed acoustic features inspired by biological auditory perception that could be used to perform accurate and robust ASR. In contrast, Specifically, we evaluate the ASR accuracy and robustness of several biologically inspired acoustic features. In addition to several features from prior works, such as gammatone filterbank features (GammSpec), we also propose two new acoustic features called frequency masked spectrogram (FreqMask) and difference of gammatones spectrogram (DoGSpec) to simulate the neuro-psychological phenomena of frequency masking and lateral suppression. Experiments on diverse models and datasets show that (1) DoGSpec achieves significantly better robustness than the highly popular log mel spectrogram (LogMelSpec) with minimal accuracy degradation, and (2) GammSpec achieves better accuracy and robustness to non-adversarial noises from the Speech Robust Bench benchmark, but it is outperformed by DoGSpec against adversarial attacks.
Abstract（参考訳）: 自動音声認識(ASR)システムは、環境騒音、室内インパルス応答、特殊効果、悪意あるアクターによる攻撃(敵攻撃)など、現実の環境に存在する無数のノイズに対して堅牢でなければならない。最近の研究は、新しいディープニューラルネットワーク(DNN)を開発し、それらのための多様なトレーニングデータセットをキュレートすることで、比較的単純な音響的特徴を使用しながら、精度と堅牢性の向上を目指している。このアプローチは、トレーニングデータに存在するノイズの種類に対するロバスト性を改善するが、目に見えないノイズに対する限られたロバスト性と、敵の攻撃に対する無視可能なロバスト性を与える。本稿では,生物の聴覚知覚にインスパイアされた音響特性を発達させた先行研究のアプローチを再考する。対照的に, バイオインスパイアされた音響特性のASR精度とロバスト性を評価する。ガンマトンフィルタバンクの特徴 (GammSpec) などの先行研究の特徴に加えて,周波数マスク分光法 (FreqMask) とガンマトン分光法 (DoGSpec) という2つの新しい音響特性を提案し,周波数マスキングと側方抑制の神経心理学的現象をシミュレートした。多様なモデルとデータセットを用いた実験により,(1)DoGSpecは高い精度でログメル分光器(LogMelSpec)よりもはるかに優れたロバスト性を実現し,(2)GammSpecはSpeech Robust Benchベンチマークによる非対向雑音に対する精度とロバスト性を達成するが,DoGSpecは対向攻撃に対して優れていた。

関連論文リスト

Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP [68.44229678548298]
コントラストスペクトル整流(Contrastive Spectral Rectification, CSR)は、敵の例に対する効率的な試験時間防御である。 CSRはSOTAを18.1%上回り、AutoAttackに勝っている。 CSRは様々な視覚的タスクに幅広い適用性を示す。
論文参考訳（メタデータ） (2026-01-27T05:24:45Z)
Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition [2.0391237204597363]
音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-20T10:05:58Z)
Hidden in the Noise: Unveiling Backdoors in Audio LLMs Alignment through Latent Acoustic Pattern Triggers [40.4026420070893]
HIN(Hidden in the Noise)は、微妙でオーディオ特有の機能を活用するために設計された、新しいバックドアアタックフレームワークである。 HINは、時間的ダイナミクスの変更やスペクトル調整されたノイズの戦略的注入など、生のオーディオ波形に音響的修正を適用している。音声機能に基づくトリガに対するALLMロバスト性を評価するため、AudioSafeベンチマークを開発し、9つの異なるリスクタイプを評価する。
論文参考訳（メタデータ） (2025-08-04T08:15:16Z)
Echoes of Phonetics: Unveiling Relevant Acoustic Cues for ASR via Feature Attribution [19.32372029477596]
本稿では,現代コンフォーマーを用いたASRシステムにおいて,関連する音響的手がかりを特定するために,特徴属性手法を適用した。発声音, 摩擦音, 母音を解析することにより, 特徴属性が時間領域と周波数領域の音響特性とどのように一致しているかを評価する。
論文参考訳（メタデータ） (2025-06-02T19:11:16Z)
Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文参考訳（メタデータ） (2025-03-21T23:21:17Z)
Pitch Imperfect: Detecting Audio Deepfakes Through Acoustic Prosodic Analysis [6.858439600092057]
音声のディープフェイクを検出するための基礎的な手段として,韻律(Prosody)や高レベルの言語的特徴を探求する。我々は6つの古典的韻律的特徴に基づく検出器を開発し、我々のモデルが他のベースラインモデルと同様に機能することを実証する。モデル決定に最も影響を与える韻律的特徴を説明することができることを示す。
論文参考訳（メタデータ） (2025-02-20T16:52:55Z)
A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。工業画像から抽出した55個の特徴を統計的手法を用いて解析した。これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文参考訳（メタデータ） (2024-12-11T22:12:21Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
DEMONet: Underwater Acoustic Target Recognition based on Multi-Expert Network and Cross-Temporal Variational Autoencoder [22.271499386492533]
複雑な水中環境のため、実世界のシナリオで堅牢な水中音響認識システムを構築することは困難である。ノイズの封筒変調(DEMON)を検出することで,ターゲットのシャフト周波数やブレード数に対するロバストな洞察を提供するDEMONetを提案する。 DEMON特徴量におけるノイズとスプリアス変調スペクトルを緩和するために、時間的アライメント戦略を導入し、ノイズ耐性のDEMONスペクトルを再構成して生のDEMON特徴量を置き換えるために可変オートエンコーダ(VAE)を用いる。
論文参考訳（メタデータ） (2024-11-05T03:04:51Z)
Filtered Randomized Smoothing: A New Defense for Robust Modulation Classification [16.974803642923465]
我々は、任意の攻撃に対して証明可能な防御を提供するロバストな変調分類器を設計する問題について検討する。スペクトルフィルタリングとランダムな平滑化を組み合わせた新しい防御法であるフィルタランダム化平滑化(FRS)を提案する。 FRSは攻撃信号と良性信号の両方の精度において,ATやRSを含む既存の防御よりも有意に優れていた。
論文参考訳（メタデータ） (2024-10-08T20:17:25Z)
A Spectral Perspective towards Understanding and Improving Adversarial Robustness [8.912245110734334]
対人訓練(AT)は効果的な防御手法であることが証明されているが、堅牢性向上のメカニズムは十分に理解されていない。我々は、ATは、形状バイアスのある表現を保持する低周波領域にもっと焦点を合わせ、堅牢性を得るよう深層モデルに誘導することを示す。本稿では,攻撃された逆入力によって推定されるスペクトル出力が,その自然な入力に可能な限り近いスペクトルアライメント正則化(SAR)を提案する。
論文参考訳（メタデータ） (2023-06-25T14:47:03Z)
Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。 4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文参考訳（メタデータ） (2023-01-18T04:54:58Z)
Leveraging Domain Features for Detecting Adversarial Attacks Against Deep Speech Recognition in Noise [18.19207291891767]
ディープASRシステムに対する敵攻撃は非常に成功している。この作業では、フィルタバンクベースの機能を活用して、攻撃特性をより正確に把握し、検出を改善する。逆フィルタバンクの機能は、クリーンな環境とノイズの多い環境の両方でよく機能する。
論文参考訳（メタデータ） (2022-11-03T07:25:45Z)
SAR Despeckling using a Denoising Diffusion Probabilistic Model [52.25981472415249]
スペックルの存在は画像品質を劣化させ、SAR画像理解アプリケーションの性能に悪影響を及ぼす。本稿では,SAR脱種のための拡散確率モデルであるSAR-DDPMを紹介する。提案手法は, 最先端の切り離し法と比較して, 定量化と定性化の両面で有意な改善を実現している。
論文参考訳（メタデータ） (2022-06-09T14:00:26Z)
SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文参考訳（メタデータ） (2022-03-31T02:08:27Z)
Robustifying automatic speech recognition by extracting slowly varying features [16.74051650034954]
敵攻撃に対する防御機構を提案する。このような方法で事前処理されたデータに基づいてトレーニングされたハイブリッドASRモデルを使用します。本モデルでは, ベースラインモデルと類似したクリーンデータの性能を示すとともに, 4倍以上の堅牢性を示した。
論文参考訳（メタデータ） (2021-12-14T13:50:23Z)
Certified Adversarial Defenses Meet Out-of-Distribution Corruptions: Benchmarking Robustness and Simple Baselines [65.0803400763215]
この研究は、最先端のロバストモデルがアウト・オブ・ディストリビューションデータに遭遇した場合、敵のロバスト性がどのように変化を保証しているかを批判的に検証する。本稿では,トレーニングデータのスペクトルカバレッジを改善するために,新たなデータ拡張方式であるFourierMixを提案する。また,FourierMixの拡張により,様々なOODベンチマークにおいて,より優れたロバスト性保証を実現することが可能となる。
論文参考訳（メタデータ） (2021-12-01T17:11:22Z)
A Frequency Perspective of Adversarial Robustness [72.48178241090149]
理論的および経験的知見を参考に,周波数に基づく対向例の理解について述べる。分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。本稿では、一般に観測される精度対ロバスト性トレードオフの周波数に基づく説明法を提案する。
論文参考訳（メタデータ） (2021-10-26T19:12:34Z)
Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。フェースフォージェリ検出に高周波雑音を用いることを提案する。 1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。 2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文参考訳（メタデータ） (2021-03-23T08:19:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。