論文の概要: Scalable Speech Enhancement with Dynamic Channel Pruning
- arxiv url: http://arxiv.org/abs/2412.17121v1
- Date: Sun, 22 Dec 2024 18:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:33.618960
- Title: Scalable Speech Enhancement with Dynamic Channel Pruning
- Title(参考訳): 動的チャンネルプルーニングによるスケーラブル音声強調
- Authors: Riccardo Miccini, Clement Laroche, Tobias Piechowiak, Luca Pezzarossa,
- Abstract要約: 遠隔協調環境における生産性向上には,音声強調(SE)が不可欠である。
ディープラーニングモデルはSEでは非常に効果的であるが、その計算要求により組み込みシステムでは実用的ではない。
音声領域にDynamic Channel Pruningを導入し,それをSEの独自の畳み込みアーキテクチャに適用する。
- 参考スコア(独自算出の注目度): 0.44998333629984877
- License:
- Abstract: Speech Enhancement (SE) is essential for improving productivity in remote collaborative environments. Although deep learning models are highly effective at SE, their computational demands make them impractical for embedded systems. Furthermore, acoustic conditions can change significantly in terms of difficulty, whereas neural networks are usually static with regard to the amount of computation performed. To this end, we introduce Dynamic Channel Pruning to the audio domain for the first time and apply it to a custom convolutional architecture for SE. Our approach works by identifying unnecessary convolutional channels at runtime and saving computational resources by not computing the activations for these channels and retrieving their filters. When trained to only use 25% of channels, we save 29.6% of MACs while only causing a 0.75% drop in PESQ. Thus, DynCP offers a promising path toward deploying larger and more powerful SE solutions on resource-constrained devices.
- Abstract(参考訳): 遠隔協調環境における生産性向上には,音声強調(SE)が不可欠である。
ディープラーニングモデルはSEでは非常に効果的であるが、その計算要求は組み込みシステムでは実用的ではない。
さらに、音響条件は困難という点では著しく変化するが、ニューラルネットワークは通常、計算の量に関して静的である。
この目的のために、初めて音声領域にDynamic Channel Pruningを導入し、SEの独自の畳み込みアーキテクチャに適用する。
我々のアプローチは、実行時に不要な畳み込みチャネルを特定し、これらのチャネルのアクティベーションを計算せず、フィルタを回収することで、計算資源を節約することで機能する。
25%のチャネルのみを使用するように訓練された場合、MACの29.6%を節約する一方、PSSQの0.75%の低下しか生じない。
このように、DynCPはリソース制約のあるデバイスに、より大きくより強力なSEソリューションをデプロイするための有望な道を提供する。
関連論文リスト
- Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - Dynamic Sparsity Is Channel-Level Sparsity Learner [91.31071026340746]
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、ススパーストレーニングの指導的アプローチである。
チャネル対応動的スパース(Chase)は、非構造的動的スパースをチャネルレベルのスパースにシームレスに変換する。
提案手法は,非構造的空間性からチャネルワイド空間性へ変換する。
論文 参考訳(メタデータ) (2023-05-30T23:33:45Z) - Channelformer: Attention based Neural Solution for Wireless Channel
Estimation and Effective Online Training [1.0499453838486013]
本稿では,改良されたチャネル推定を実現するために,エンコーダ・デコーダニューラルアーキテクチャ(Channelformer)を提案する。
我々は,復号器として,エンコーダと残差畳み込みニューラルアーキテクチャに多面的注意を払っている。
また,現代通信システムにおける第5世代(5G)新しい無線(NR)構成に基づく効果的なオンライントレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T23:18:23Z) - Efficient acoustic feature transformation in mismatched environments
using a Guided-GAN [1.495380389108477]
本稿では,資源共有環境における音声認識システムを改善するための新しいフレームワークを提案する。
音響入力機能を利用したGAN(Generative Adversarial Network)を用いて、ミスマッチしたデータの特徴を高める。
1時間未満のデータで、高品質なデータに基づいて訓練され、一致しないオーディオで評価されたASRシステムは、11.5%から19.7%の相対的な単語誤り率(WER)によって改善される。
論文 参考訳(メタデータ) (2022-10-03T05:33:28Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Enabling Incremental Training with Forward Pass for Edge Devices [0.0]
進化戦略(ES)を用いてネットワークを部分的に再トレーニングし,エラー発生後に変更に適応し,回復できるようにする手法を提案する。
この技術は、バックプロパゲーションを必要とせず、最小限のリソースオーバーヘッドで推論専用ハードウェアのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-03-25T17:43:04Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文 参考訳(メタデータ) (2020-07-22T14:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。