Fugu-MT 論文翻訳(概要): Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming Networks

論文の概要: Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming Networks

arxiv url: http://arxiv.org/abs/2008.07244v1
Date: Mon, 17 Aug 2020 12:18:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 03:25:45.160125
Title: Efficient Low-Latency Speech Enhancement with Mobile Audio Streaming Networks
Title（参考訳）: モバイルオーディオストリーミングネットワークを用いた高効率低レイテンシ音声強調
Authors: Micha{\l} Romaniuk, Piotr Masztalski, Karol Piaskowski, Mateusz Matuszewski
Abstract要約: 高速低遅延音声強調のためのモバイル音声ストリーミングネットワーク(MASnet)を提案する。 MASnetは線形スケールのスペクトログラムを処理し、連続するノイズフレームを複素値比マスクに変換する。
参考スコア（独自算出の注目度）: 6.82469220191368
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Mobile Audio Streaming Networks (MASnet) for efficient low-latency speech enhancement, which is particularly suitable for mobile devices and other applications where computational capacity is a limitation. MASnet processes linear-scale spectrograms, transforming successive noisy frames into complex-valued ratio masks which are then applied to the respective noisy frames. MASnet can operate in a low-latency incremental inference mode which matches the complexity of layer-by-layer batch mode. Compared to a similar fully-convolutional architecture, MASnet incorporates depthwise and pointwise convolutions for a large reduction in fused multiply-accumulate operations per second (FMA/s), at the cost of some reduction in SNR.
Abstract（参考訳）: 本稿では,効率的な低遅延音声強調のためのモバイル音声ストリーミングネットワーク (MASnet) を提案する。 masnetは線形スケールのスペクトログラムを処理し、連続するノイズフレームを複素値比マスクに変換し、各ノイズフレームに適用する。 masnetは、レイヤ毎のバッチモードの複雑さにマッチする低遅延インクリメンタル推論モードで動作する。同様の完全畳み込みアーキテクチャと比較して、MASnetは深度と点の畳み込みを取り入れ、SNRの若干の削減を犠牲にして、融合多重累積演算を毎秒 (FMA/s) に削減する。

関連論文リスト

Deep LoRA-Unfolding Networks for Image Restoration [44.864335449093716]
画像復元のための一般化されたDeep Low-rank Adaptation (LoRA) Unfolding Networksを導入する。 LoRunは、トレーニング済みのベースデノイザをすべてのステージで共有する、新しいパラダイムを導入している。軽量でステージ固有のLoRAアダプタをPMMに注入し、ノイズレベルに応じて動的に騒音を変調する。
論文参考訳（メタデータ） (2026-02-21T02:57:48Z)
Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文参考訳（メタデータ） (2025-06-19T13:28:09Z)
A Lightweight RL-Driven Deep Unfolding Network for Robust WMMSE Precoding in Massive MU-MIMO-OFDM Systems [8.526578240549794]
本稿では,各SWMMSEイテレーションをネットワーク層にマッピングする,軽量強化学習(RL)駆動の深層展開(RLDDU-Net)ネットワークを提案する。具体的には、そのDUモジュールは、ビーム領域の間隔と周波数領域のサブキャリア相関を統合し、収束を著しく加速し、計算オーバーヘッドを低減する。不完全なCSI下でのシミュレーションの結果、RLDDU-Netは計算効率と収束効率を向上しつつ、既存のEWSR性能のベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2025-06-19T06:54:42Z)
FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文参考訳（メタデータ） (2025-06-17T02:33:42Z)
LMFCA-Net: A Lightweight Model for Multi-Channel Speech Enhancement with Efficient Narrow-Band and Cross-Band Attention [4.489833733302935]
本稿では,完全連結注意(LMFCA-Net)を分離した軽量マルチチャネル音声強調ネットワークを提案する。提案するLMFCA-Netは、時間軸切り離し完全連結注意(T-FCA)と周波数軸切り離し完全連結注意(F-FCA)機構を導入し、長距離狭帯域およびクロスバンド情報を繰り返しユニットなしで効果的に捕捉する。
論文参考訳（メタデータ） (2025-02-17T05:42:03Z)
USEFUSE: Utile Stride for Enhanced Performance in Fused Layer Architecture of Deep Neural Networks [0.6435156676256051]
本研究では,低レイテンシ左から右へのビットシリアル演算を用いた畳み込みのためのSum-of-Products (SOP)ユニットを提案する。有効メカニズムは、ReLU層の後、非効率な畳み込みを検出し、スキップし、消費電力を最小化する。ひとつはミッションクリティカルなアプリケーションの応答時間を最小限にすること、もうひとつはリソースに制約のあるデバイスに同じレイテンシでフォーカスすることである。
論文参考訳（メタデータ） (2024-12-18T11:04:58Z)
ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference [6.005712471509875]
コーディネート・ネットワーク (Coordinate Network) または暗黙の神経表現 (INR) は、自然信号を高速に符号化する手法である。本稿では,多分解能座標分解と階層変調を組み合わせたASMR座標ネットワークを提案する。また,ASMRにより,バニラSIRENモデルのMACを最大500倍まで低減し,SIRENのベースラインよりも高い再現性が得られることを示す。
論文参考訳（メタデータ） (2024-05-20T22:35:34Z)
Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文参考訳（メタデータ） (2023-12-29T02:59:40Z)
Joint Channel Estimation and Feedback with Masked Token Transformers in Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文参考訳（メタデータ） (2023-06-08T06:15:17Z)
Adaptive Dynamic Filtering Network for Image Denoising [8.61083713580388]
画像デノーミングネットワークでは、機能スケーリングは受動的フィールドサイズを拡大し、計算コストを削減するために広く利用されている。本稿では、動的畳み込みを用いて、高周波およびマルチスケール特徴の学習を改善することを提案する。我々は提案するDCBとAMDNetというMDCBを併用した効率的なデノベーションネットワークを構築した。
論文参考訳（メタデータ） (2022-11-22T06:54:27Z)
Parallel Gated Neural Network With Attention Mechanism For Speech Enhancement [0.0]
本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。 Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
論文参考訳（メタデータ） (2022-10-26T06:42:19Z)
Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。 SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文参考訳（メタデータ） (2022-10-03T14:00:41Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
A Study of Designing Compact Audio-Visual Wake Word Spotting System Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-17T08:26:25Z)
Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文参考訳（メタデータ） (2021-03-15T12:54:26Z)
Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。 LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文参考訳（メタデータ） (2020-12-02T22:35:00Z)
Progressive Training of Multi-level Wavelet Residual Networks for Image Denoising [80.10533234415237]
本稿では,マルチレベルウェーブレット残差ネットワーク(MWRN)アーキテクチャと,画像復調性能向上のためのプログレッシブトレーニング手法を提案する。人工ノイズ画像と実世界のノイズ画像の両方で実験したところ、PT-MWRNは最先端のノイズ評価法に対して良好に機能することがわかった。
論文参考訳（メタデータ） (2020-10-23T14:14:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。