論文の概要: Fast-ULCNet: A fast and ultra low complexity network for single-channel speech enhancement
- arxiv url: http://arxiv.org/abs/2601.14925v1
- Date: Wed, 21 Jan 2026 12:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.350688
- Title: Fast-ULCNet: A fast and ultra low complexity network for single-channel speech enhancement
- Title(参考訳): Fast-ULCNet:単一チャンネル音声強調のための高速かつ超低複雑性ネットワーク
- Authors: Nicolás Arrieta Larraza, Niels de Koeijer,
- Abstract要約: 本稿では,GRU層をFastGRNNに置き換えることで,計算レイテンシと複雑性の両面を低減し,ULCNetの適応性を提案する。
結果のモデルであるFast-ULCNetは、音声強調タスクにおける最先端のULCNetアーキテクチャと同等に動作する。
- 参考スコア(独自算出の注目度): 0.29465623430708904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-channel speech enhancement algorithms are often used in resource-constrained embedded devices, where low latency and low complexity designs gain more importance. In recent years, researchers have proposed a wide variety of novel solutions to this problem. In particular, a recent deep learning model named ULCNet is among the state-of-the-art approaches in this domain. This paper proposes an adaptation of ULCNet, by replacing its GRU layers with FastGRNNs, to reduce both computational latency and complexity. Furthermore, this paper shows empirical evidence on the performance decay of FastGRNNs in long audio signals during inference due to internal state drifting, and proposes a novel approach based on a trainable complementary filter to mitigate it. The resulting model, Fast-ULCNet, performs on par with the state-of-the-art original ULCNet architecture on a speech enhancement task, while reducing its model size by more than half and decreasing its latency by 34% on average.
- Abstract(参考訳): 単一チャンネル音声強調アルゴリズムは、低レイテンシと低複雑性の設計がより重要になる、リソース制約の組込みデバイスでよく使用される。
近年、研究者はこの問題に対する様々な新しい解決策を提案している。
特に、最近のUCCNetと呼ばれるディープラーニングモデルは、この分野における最先端のアプローチの一つである。
本稿では,GRU層をFastGRNNに置き換えることで,計算レイテンシと複雑性の両面を低減し,ULCNetの適応性を提案する。
さらに、内部状態のドリフトによる推論中の長い音声信号におけるFastGRNNの性能劣化に関する実証的な証拠を示し、それを緩和するためのトレーニング可能な補完フィルタに基づく新しいアプローチを提案する。
結果として得られたモデルであるFast-ULCNetは、音声強調タスクにおいて、最先端のULCNetアーキテクチャと同等に動作し、モデルサイズを半分以上削減し、平均で34%のレイテンシを低下させる。
関連論文リスト
- LUNA: LUT-Based Neural Architecture for Fast and Low-Cost Qubit Readout [0.0]
LUNAは、低コストのインテグレータベースの前処理とLook-Up Table (LUT)ベースのニューラルネットワークを組み合わせた超伝導量子ビットリードアウトアクセラレータである。
最先端技術と比較して10.95倍の面積減少と30%のレイテンシ低下を示し,忠実さの損失はほとんどなかった。
論文 参考訳(メタデータ) (2025-12-08T18:41:13Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - Speech Synthesis By Unrolling Diffusion Process using Neural Network Layers [3.2634122554914002]
UDPNetは音声合成における逆拡散過程を高速化する新しいアーキテクチャである。
UDPNetは、品質と効率の両面で最先端の手法を一貫して上回っていることを示す。
これらの結果は、UDPNetをリアルタイム音声合成アプリケーションのための堅牢なソリューションとして位置づけている。
論文 参考訳(メタデータ) (2023-09-18T10:35:27Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - End-to-End Neural Audio Coding for Real-Time Communications [22.699018098484707]
本稿では、リアルタイム通信(RTC)のための低レイテンシでエンドツーエンドのニューラルオーディオシステムTFNetを提案する。
短期的および長期的両方の時間的依存関係をキャプチャするために,時間的フィルタリングのためのインターリーブ構造を提案する。
エンドツーエンドの最適化により、TFNetは音声強調とパケットロスの隠蔽を共同で最適化し、3つのタスクに1対1のネットワークを提供する。
論文 参考訳(メタデータ) (2022-01-24T03:06:30Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。