論文の概要: Real-time Denoising and Dereverberation with Tiny Recurrent U-Net
- arxiv url: http://arxiv.org/abs/2102.03207v1
- Date: Fri, 5 Feb 2021 14:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 23:16:34.850611
- Title: Real-time Denoising and Dereverberation with Tiny Recurrent U-Net
- Title(参考訳): Tiny Recurrent U-Netによるリアルタイムデノイングとデバベーション
- Authors: Hyeong-Seok Choi, Sungjin Park, Jie Hwan Lee, Hoon Heo, Dongsuk Jeon,
Kyogu Lee
- Abstract要約: 我々は,現在の最先端モデルの性能と一致する軽量オンライン推論モデルであるTiny Recurrent U-Net(TRU-Net)を提案する。
TRU-Netの量子化バージョンのサイズは362キロバイトであり、エッジデバイスにデプロイできるほど小さい。
客観評価と主観評価の両方の結果から,我々のモデルが現在の最先端モデルと競合する性能を達成できることが示されている。
- 参考スコア(独自算出の注目度): 12.533488149023025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep learning-based models have seen outstanding performance
improvement with speech enhancement tasks. The number of parameters of
state-of-the-art models, however, is often too large to be deployed on devices
for real-world applications. To this end, we propose Tiny Recurrent U-Net
(TRU-Net), a lightweight online inference model that matches the performance of
current state-of-the-art models. The size of the quantized version of TRU-Net
is 362 kilobytes, which is small enough to be deployed on edge devices. In
addition, we combine the small-sized model with a new masking method called
phase-aware $\beta$-sigmoid mask, which enables simultaneous denoising and
dereverberation. Results of both objective and subjective evaluations have
shown that our model can achieve competitive performance with the current
state-of-the-art models on benchmark datasets using fewer parameters by orders
of magnitude.
- Abstract(参考訳): 現代のディープラーニングに基づくモデルは、音声強化タスクで顕著なパフォーマンス改善が見られた。
しかし、最先端モデルのパラメータの数は、現実のアプリケーションのためにデバイスにデプロイするには大きすぎることが多い。
この目的のために,現在の最先端モデルの性能と一致する軽量オンライン推論モデルであるTiny Recurrent U-Net(TRU-Net)を提案する。
TRU-Netの量子化されたバージョンのサイズは362キロバイトであり、エッジデバイスにデプロイできるほど小さい。
さらに,この小型モデルと相認識型$\beta$-sigmoidマスクという新しいマスキング手法を組み合わせることで,同時脱臭と脱水を可能にする。
客観的および主観的評価の結果から,ベンチマークデータセットにおける現在の最先端モデルとの競合性能は,桁違いに小さいパラメータで達成できることがわかった。
関連論文リスト
- Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Optimization of DNN-based speaker verification model through efficient quantization technique [15.250677730668466]
ディープモデルの量子化は、計算コストとメモリコストの両方を削減する手段を提供する。
本研究では,話者検証モデルの定量化のための最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T05:03:10Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck [11.416426888383873]
より小型モデルは飽和に悩まされる可能性があり,訓練の先進点における性能低下を特徴とする。
これは、より小さなモデルの隠れ次元とターゲットの文脈確率分布の高階とのミスマッチによって説明できる。
各種設定におけるソフトマックスボトルネックの影響を計測し,1000次元未満の隠れ次元に基づくモデルでは,遅延事前学習において退化した潜在表現を採用する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-04-11T11:10:36Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks [20.374784902476318]
モデル重み付けにゼロを導入する方法として, モデル精度と計算効率のトレードオフを良好に提供する方法として, プルーニングが有効であることが示されている。
現代のプロセッサには、高速なオンチップスクラッチパッドメモリと、間接的に負荷を発生させ、そのようなメモリ上の操作を格納する集/散乱エンジンが備わっている。
本研究では,スクラッチパッドメモリと集合/散乱エンジンを利用して,ニューラルネットワークの推論を高速化する,新しいスパースパターン(GSパターン)を提案する。
論文 参考訳(メタデータ) (2021-12-20T22:55:45Z) - Real-time Human Detection Model for Edge Devices [0.0]
畳み込みニューラルネットワーク(CNN)は、検出と分類タスクにおいて、従来の特徴抽出と機械学習モデルを置き換える。
最近、リアルタイムタスクのために軽量CNNモデルが導入されている。
本稿では,Raspberry Piのような限られたエッジデバイスに適合するCNNベースの軽量モデルを提案する。
論文 参考訳(メタデータ) (2021-11-20T18:42:17Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。