論文の概要: Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming
Networks
- arxiv url: http://arxiv.org/abs/2008.07244v1
- Date: Mon, 17 Aug 2020 12:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:25:45.160125
- Title: Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming
Networks
- Title(参考訳): モバイルオーディオストリーミングネットワークを用いた高効率低レイテンシ音声強調
- Authors: Micha{\l} Romaniuk, Piotr Masztalski, Karol Piaskowski, Mateusz
Matuszewski
- Abstract要約: 高速低遅延音声強調のためのモバイル音声ストリーミングネットワーク(MASnet)を提案する。
MASnetは線形スケールのスペクトログラムを処理し、連続するノイズフレームを複素値比マスクに変換する。
- 参考スコア(独自算出の注目度): 6.82469220191368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Mobile Audio Streaming Networks (MASnet) for efficient low-latency
speech enhancement, which is particularly suitable for mobile devices and other
applications where computational capacity is a limitation. MASnet processes
linear-scale spectrograms, transforming successive noisy frames into
complex-valued ratio masks which are then applied to the respective noisy
frames. MASnet can operate in a low-latency incremental inference mode which
matches the complexity of layer-by-layer batch mode. Compared to a similar
fully-convolutional architecture, MASnet incorporates depthwise and pointwise
convolutions for a large reduction in fused multiply-accumulate operations per
second (FMA/s), at the cost of some reduction in SNR.
- Abstract(参考訳): 本稿では,効率的な低遅延音声強調のためのモバイル音声ストリーミングネットワーク (MASnet) を提案する。
masnetは線形スケールのスペクトログラムを処理し、連続するノイズフレームを複素値比マスクに変換し、各ノイズフレームに適用する。
masnetは、レイヤ毎のバッチモードの複雑さにマッチする低遅延インクリメンタル推論モードで動作する。
同様の完全畳み込みアーキテクチャと比較して、MASnetは深度と点の畳み込みを取り入れ、SNRの若干の削減を犠牲にして、融合多重累積演算を毎秒 (FMA/s) に削減する。
関連論文リスト
- ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference [6.005712471509875]
コーディネート・ネットワーク (Coordinate Network) または暗黙の神経表現 (INR) は、自然信号を高速に符号化する手法である。
本稿では,多分解能座標分解と階層変調を組み合わせたASMR座標ネットワークを提案する。
また,ASMRにより,バニラSIRENモデルのMACを最大500倍まで低減し,SIRENのベースラインよりも高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-05-20T22:35:34Z) - Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Adaptive Dynamic Filtering Network for Image Denoising [8.61083713580388]
画像デノーミングネットワークでは、機能スケーリングは受動的フィールドサイズを拡大し、計算コストを削減するために広く利用されている。
本稿では、動的畳み込みを用いて、高周波およびマルチスケール特徴の学習を改善することを提案する。
我々は提案するDCBとAMDNetというMDCBを併用した効率的なデノベーションネットワークを構築した。
論文 参考訳(メタデータ) (2022-11-22T06:54:27Z) - Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement [0.0]
本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2022-10-26T06:42:19Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Progressive Training of Multi-level Wavelet Residual Networks for Image
Denoising [80.10533234415237]
本稿では,マルチレベルウェーブレット残差ネットワーク(MWRN)アーキテクチャと,画像復調性能向上のためのプログレッシブトレーニング手法を提案する。
人工ノイズ画像と実世界のノイズ画像の両方で実験したところ、PT-MWRNは最先端のノイズ評価法に対して良好に機能することがわかった。
論文 参考訳(メタデータ) (2020-10-23T14:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。