論文の概要: From Diet to Free Lunch: Estimating Auxiliary Signal Properties using Dynamic Pruning Masks in Speech Enhancement Networks
- arxiv url: http://arxiv.org/abs/2602.10666v1
- Date: Wed, 11 Feb 2026 09:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.620781
- Title: From Diet to Free Lunch: Estimating Auxiliary Signal Properties using Dynamic Pruning Masks in Speech Enhancement Networks
- Title(参考訳): 食事から自由ランチへ:音声強調ネットワークにおけるダイナミックプルーニングマスクを用いた補助信号特性の推定
- Authors: Riccardo Miccini, Clément Laroche, Tobias Piechowiak, Xenofon Fafoutis, Luca Pezzarossa,
- Abstract要約: 音声デバイスにおける音声強調(SE)は、しばしばVoice Activity Detection (VAD)、SNR推定、音響シーン分類のための補助モジュールによって支援される。
その結果,VADでは93%,ノイズ分類では84%,F0では0.86であった。
コントリビューションは2つあり、一方、下流予測タスクのレンズを通してDynCPモデルの創発的挙動を調べ、それらが何を学習しているかを明らかにし、他方、効率的なSEと同時推定のための総合解としてDynCPを再利用し、再提案する。
- 参考スコア(独自算出の注目度): 4.219150964619931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Enhancement (SE) in audio devices is often supported by auxiliary modules for Voice Activity Detection (VAD), SNR estimation, or Acoustic Scene Classification to ensure robust context-aware behavior and seamless user experience. Just like SE, these tasks often employ deep learning; however, deploying additional models on-device is computationally impractical, whereas cloud-based inference would introduce additional latency and compromise privacy. Prior work on SE employed Dynamic Channel Pruning (DynCP) to reduce computation by adaptively disabling specific channels based on the current input. In this work, we investigate whether useful signal properties can be estimated from these internal pruning masks, thus removing the need for separate models. We show that simple, interpretable predictors achieve up to 93% accuracy on VAD, 84% on noise classification, and an R2 of 0.86 on F0 estimation. With binary masks, predictions reduce to weighted sums, inducing negligible overhead. Our contribution is twofold: on one hand, we examine the emergent behavior of DynCP models through the lens of downstream prediction tasks, to reveal what they are learning; on the other, we repurpose and re-propose DynCP as a holistic solution for efficient SE and simultaneous estimation of signal properties.
- Abstract(参考訳): 音声デバイスにおける音声強調(SE)は、しばしば音声活動検出(VAD)、SNR推定、アコースティックシーン分類の補助モジュールによってサポートされ、堅牢なコンテキスト認識行動とシームレスなユーザエクスペリエンスを保証する。
SEと同じように、これらのタスクはディープラーニングを採用することが多いが、デバイス上に追加のモデルをデプロイすることは、計算的に実用的ではない。
SEの以前の作業では、動的チャネルプルーニング(DynCP)を使用して、現在の入力に基づいて特定のチャネルを適応的に無効にすることで計算を減らした。
本研究では,これらの内部プルーニングマスクから有用な信号特性を推定できるかどうかを検討した。
その結果,VADでは93%,ノイズ分類では84%,F0では0.86であった。
二項マスクでは、予測は重み付けの和に還元され、無視できないオーバーヘッドを引き起こす。
我々は,DynCPモデルの創発的挙動を下流予測タスクのレンズを用いて検証し,学習内容を明らかにするとともに,DynCPを効率なSEと信号特性の同時推定のための総合解として再利用し,再提案する。
関連論文リスト
- Domain-Incremental Continual Learning for Robust and Efficient Keyword Spotting in Resource Constrained Systems [0.0]
キーワード エッジデバイスにデプロイされる小さなフットプリントモデルを備えたスポッティングシステムは、かなりの精度と堅牢性に直面する。
計算効率を維持しつつ,新しい領域に適応する継続的学習のための包括的フレームワークを提案する。
提案したパイプラインは、Mel Frequency Cepstral Coefficients(MFCC)とMel-spectrogram機能の両方を利用して、デュアルインプットの畳み込みニューラルネットワークを統合する。
論文 参考訳(メタデータ) (2026-01-22T17:59:31Z) - From Entity Reliability to Clean Feedback: An Entity-Aware Denoising Framework Beyond Interaction-Level Signals [20.323837731778358]
暗黙のフィードバックはレコメンデーションシステムの中心であるが、本質的にノイズがあり、しばしばモデルのトレーニングやユーザエクスペリエンスの劣化を損なう。
textbfEARD(textbfEntity-textbfAware textbfReliability-textbfDriven Denoising)は,インタラクションレベルの信号からエンティティレベルの信頼性に移行する軽量フレームワークである。
論文 参考訳(メタデータ) (2025-08-14T17:20:12Z) - Reliable Few-shot Learning under Dual Noises [166.53173694689693]
そこで我々はDETA++(Denoized Task Adaptation)を提案する。
DETA++はメモリバンクを使用して、各インナータスククラスのクリーンなリージョンを格納し、精製する。
大規模な実験は、DETA++の有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2025-06-19T14:05:57Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Noisy Test-Time Adaptation in Vision-Language Models [73.14136220844156]
テスト時間適応(TTA)は、テスト中のターゲットデータのみに依存することにより、ソースデータとターゲットデータの分散シフトに対処することを目的としている。
本稿では、ゼロショット方式で、テスト時にノイズのあるサンプルをターゲットとするデータにモデルを適応させることに焦点を当てたゼロショットノイズTTA(ZS-NTTA)を提案する。
本稿では, 冷凍機の出力を擬似ラベルとして利用し, ノイズ検出器の訓練を行う適応ノイズ検出器(AdaND)を提案する。
論文 参考訳(メタデータ) (2025-02-20T14:37:53Z) - NeuroPlug: Plugging Side-Channel Leaks in NPUs using Space Filling Curves [0.4143603294943439]
全ての公表された対策(CM)は、信号XにノイズNを付加する。
本研究では,このノイズを,対象の計測値,統計的解析値,様々な種類の推定側情報を用いて除去することが容易であることを示す。
我々はこれらの攻撃手法に免疫を持つ新しいCM NeuroPlugを提案する。
論文 参考訳(メタデータ) (2024-07-18T10:40:41Z) - Roll-Drop: accounting for observation noise with a single parameter [15.644420658691411]
本稿では,Deep-Reinforcement Learning(DRL)におけるsim-to-realのための簡単な戦略を提案する。
シミュレーション中にドロップアウトを使用して、各状態の分布を明示的にモデル化することなく、デプロイメント中の観測ノイズを考慮します。
観測では,最大25%のノイズを注入した場合の80%の成功率を示し,ベースラインの2倍の堅牢性を示した。
論文 参考訳(メタデータ) (2023-04-25T20:52:51Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals [11.939409227407769]
DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
論文 参考訳(メタデータ) (2021-02-11T23:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。