論文の概要: Efficient Trainable Front-Ends for Neural Speech Enhancement
- arxiv url: http://arxiv.org/abs/2002.09286v1
- Date: Thu, 20 Feb 2020 01:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:13:25.270988
- Title: Efficient Trainable Front-Ends for Neural Speech Enhancement
- Title(参考訳): ニューラル音声強調のための訓練用フロントエンド
- Authors: Jonah Casebeer, Umut Isik, Shrikant Venkataramani, Arvindh
Krishnaswamy
- Abstract要約: 本稿では,高速フーリエ変換を演算するバタフライ機構に基づく,効率的で訓練可能なフロントエンドを提案する。
我々はその精度と効率の利点を低計算型ニューラル音声強調モデルに示す。
- 参考スコア(独自算出の注目度): 22.313111311130665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many neural speech enhancement and source separation systems operate in the
time-frequency domain. Such models often benefit from making their Short-Time
Fourier Transform (STFT) front-ends trainable. In current literature, these are
implemented as large Discrete Fourier Transform matrices; which are
prohibitively inefficient for low-compute systems. We present an efficient,
trainable front-end based on the butterfly mechanism to compute the Fast
Fourier Transform, and show its accuracy and efficiency benefits for
low-compute neural speech enhancement models. We also explore the effects of
making the STFT window trainable.
- Abstract(参考訳): 多くのニューラル音声強調および音源分離システムは時間周波数領域で動作する。
このようなモデルは、しばしばショートタイムフーリエ変換(STFT)のフロントエンドをトレーニングできるという利点がある。
現在の文献では、これらは大きな離散フーリエ変換行列として実装されており、低計算系では非効率である。
高速フーリエ変換を計算するためのバタフライ機構に基づく効率的で訓練可能なフロントエンドを提案し,その精度と効率性を示す。
また、STFTウィンドウをトレーニング可能にする効果についても検討する。
関連論文リスト
- LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Fourier Controller Networks for Real-Time Decision-Making in Embodied Learning [42.862705980039784]
Transformerは、時間変化のある特徴をモデル化するための強化学習を約束している。
データ効率の低下と推論遅延の低さに悩まされている。
本稿では,周波数領域の新しい視点から課題を考察する。
論文 参考訳(メタデータ) (2024-05-30T09:43:59Z) - Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [102.92240148504774]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。
優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。
我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文 参考訳(メタデータ) (2023-11-10T18:59:54Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band
Generation and Inverse Short-Time Fourier Transform [9.606821628015933]
マルチバンド生成と逆ショートタイムフーリエ変換を用いた軽量なエンドツーエンドテキスト音声合成モデルを提案する。
実験結果から,本モデルでは音声を自然に合成し,VITSで合成した。
より小型のモデルでは、自然性と推論速度の両方に関して軽量のベースラインモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-28T08:15:05Z) - Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier
Layers [0.0]
トランスフォーマーベースの言語モデルは、ほぼすべての自然言語処理(NLP)タスクにおいて、大幅なパフォーマンス向上のためにアテンションメカニズムを利用する。
最近の研究は、計算不効率の欠点を取り除くことに重点を置いており、トランスフォーマーベースのモデルが注意層を使わずに競争結果に到達できることを示した。
先駆的な研究は、アテンション層をトランスフォーマーエンコーダアーキテクチャのフーリエ変換(FT)に置き換えるFNetを提案した。
論文 参考訳(メタデータ) (2022-09-26T16:23:02Z) - FFC-SE: Fast Fourier Convolution for Speech Enhancement [1.0499611180329804]
Fast Fourier Convolution(FFC)は、最近提案された神経オペレータで、いくつかのコンピュータビジョン問題で有望なパフォーマンスを示している。
本研究では、FFCを音声強調に適応させるニューラルネットワークアーキテクチャを設計する。
その結果、FFCに基づくニューラルネットワークは、類似の畳み込みモデルよりも優れており、他の音声強調ベースラインよりも良い結果または同等の結果が得られた。
論文 参考訳(メタデータ) (2022-04-06T18:52:47Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Fourier Features Let Networks Learn High Frequency Functions in Low
Dimensional Domains [69.62456877209304]
単純なフーリエ特徴写像を通して入力点を渡すことで、多層パーセプトロンが高周波関数を学習できることを示す。
結果は、最先端の結果を達成するコンピュータビジョンとグラフィックの進歩に光を当てた。
論文 参考訳(メタデータ) (2020-06-18T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。