論文の概要: Scaling strategies for on-device low-complexity source separation with
Conv-Tasnet
- arxiv url: http://arxiv.org/abs/2303.03005v1
- Date: Mon, 6 Mar 2023 10:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 16:34:47.230985
- Title: Scaling strategies for on-device low-complexity source separation with
Conv-Tasnet
- Title(参考訳): conv-tasnetを用いたデバイス上低複雑さソース分離のためのスケーリング戦略
- Authors: Mohamed Nabih Ali, Francesco Paissan, Daniele Falavigna, Alessio
Brutti
- Abstract要約: 単一チャンネル音声分離のための非常に効果的なニューラルアプローチが文献で紹介されている。
これらのモデルのサイズと複雑さのため、補聴器やイヤホンなどの低リソースデバイスでの使用は依然として困難である。
モデル全体のサイズを直接制御する3つのパラメータ、すなわち、残余ブロックの数、分離ブロックの繰り返し数、深さワイド畳み込みにおけるチャネルの数を考える。
- 参考スコア(独自算出の注目度): 8.40565031143262
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, several very effective neural approaches for single-channel speech
separation have been presented in the literature. However, due to the size and
complexity of these models, their use on low-resource devices, e.g. for hearing
aids, and earphones, is still a challenge and established solutions are not
available yet. Although approaches based on either pruning or compressing
neural models have been proposed, the design of a model architecture suitable
for a certain application domain often requires heuristic procedures not easily
portable to different low-resource platforms. Given the modular nature of the
well-known Conv-Tasnet speech separation architecture, in this paper we
consider three parameters that directly control the overall size of the model,
namely: the number of residual blocks, the number of repetitions of the
separation blocks and the number of channels in the depth-wise convolutions,
and experimentally evaluate how they affect the speech separation performance.
In particular, experiments carried out on the Libri2Mix show that the number of
dilated 1D-Conv blocks is the most critical parameter and that the usage of
extra-dilation in the residual blocks allows reducing the performance drop.
- Abstract(参考訳): 近年,単チャネル音声分離のための非常に効果的なニューラルアプローチが文献に提示されている。
しかしながら、これらのモデルのサイズと複雑さのため、補聴器やイヤホンなどの低リソースデバイスでの使用は依然として課題であり、確立されたソリューションはまだ利用できない。
プルーニングまたは圧縮ニューラルモデルに基づくアプローチが提案されているが、特定のアプリケーションドメインに適したモデルアーキテクチャの設計は、しばしば異なる低リソースプラットフォームに容易に移植できないヒューリスティックな手順を必要とする。
本稿では,よく知られたConv-Tasnet音声分離アーキテクチャのモジュラー性を考慮して,モデル全体のサイズを直接制御する3つのパラメータについて考察する。
特に、Libri2Mixで行った実験では、拡張された1D-Convブロックの数が最も重要なパラメータであり、残余ブロックにおける拡張外使用が性能低下を減少させることを示した。
関連論文リスト
- FoldGPT: Simple and Effective Large Language Model Compression Scheme [5.611544096046119]
ネットワーク帯域幅とメモリ制限は、モバイルデバイスに数十億レベルのモデルをデプロイする上で問題となる。
ブロック除去とブロックパラメータ共有を組み合わせたFoldGPTを提案する。
実験により、FoldGPTは従来の最先端(SOTA)手法よりも効率の良いモデル圧縮性能を示した。
論文 参考訳(メタデータ) (2024-07-01T03:17:53Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Big model only for hard audios: Sample dependent Whisper model selection
for efficient inferences [7.592727209806414]
いくつかのASRモデルが様々なサイズに存在するが、推論コストが異なるため、性能レベルが異なる。
我々は、オーディオサンプルが与えられた場合、十分な最小のモデルを使用することで、良好な書き起こしにつながる決定モジュールを訓練することを提案する。
決定プロセスの計算効率を保ちながら,性能低下を低減し,計算コストを大幅に削減できる決定モジュールを構築した。
論文 参考訳(メタデータ) (2023-09-22T08:50:58Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Deformable Temporal Convolutional Networks for Monaural Noisy
Reverberant Speech Separation [26.94528951545861]
音声分離モデルは、多くの音声処理アプリケーションにおいて、個々の話者を分離するために使用される。
ディープラーニングモデルは、多くの音声分離ベンチマークにおける最先端(SOTA)結果につながることが示されている。
時間畳み込みネットワーク(TCN)として知られるそのようなモデルの1つは、音声分離タスクにおいて有望な結果を示している。
近年,TNの最適なRFは,音声信号の残響特性によって異なることが明らかにされている。
論文 参考訳(メタデータ) (2022-10-27T10:29:19Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。