論文の概要: Efficient Neural and Numerical Methods for High-Quality Online Speech Spectrogram Inversion via Gradient Theorem
- arxiv url: http://arxiv.org/abs/2505.24498v1
- Date: Fri, 30 May 2025 11:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.932714
- Title: Efficient Neural and Numerical Methods for High-Quality Online Speech Spectrogram Inversion via Gradient Theorem
- Title(参考訳): 勾配定理を用いた高品質オンライン音声スペクトログラムインバージョンのための高能率ニューラルネットワークと数値計算法
- Authors: Andres Fernandez, Juan Azcarreta, Cagdas Bilen, Jesus Monge Alvarez,
- Abstract要約: 高品質を維持しながら、計算コストを大幅に削減する3つのイノベーションを紹介します。
まず,従来の技術よりも30倍小さい,たった8kパラメータのニューラルネットワークアーキテクチャを導入する。
第二に、レイテンシを1ホップサイズで増加させることで、神経推論ステップのコストをさらに半減できます。
- 参考スコア(独自算出の注目度): 1.1384517382968782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in online speech spectrogram inversion effectively combines Deep Learning with the Gradient Theorem to predict phase derivatives directly from magnitudes. Then, phases are estimated from their derivatives via least squares, resulting in a high quality reconstruction. In this work, we introduce three innovations that drastically reduce computational cost, while maintaining high quality: Firstly, we introduce a novel neural network architecture with just 8k parameters, 30 times smaller than previous state of the art. Secondly, increasing latency by 1 hop size allows us to further halve the cost of the neural inference step. Thirdly, we we observe that the least squares problem features a tridiagonal matrix and propose a linear-complexity solver for the least squares step that leverages tridiagonality and positive-semidefiniteness, achieving a speedup of several orders of magnitude. We release samples online.
- Abstract(参考訳): オンライン音声スペクトルインバージョンにおける最近の研究は、Deep LearningとGradient Theoremを効果的に組み合わせて、位相微分を直接等級から予測している。
そして, 位相を最小二乗法で推定し, 高品質な再構成を行う。
本稿では,計算コストを大幅に削減し,高品質を維持しながら,3つのイノベーションを紹介する。 まず,従来の最先端技術よりも30倍小さい,たった8kパラメータの新たなニューラルネットワークアーキテクチャを導入する。
第二に、レイテンシを1ホップサイズで増加させることで、神経推論ステップのコストをさらに半減できます。
第三に、最小二乗問題は三角行列を特徴とし、三角性および正の半無限性を利用して数桁のスピードアップを達成する最小二乗ステップに対する線形複雑解法を提案する。
私たちはサンプルをオンラインでリリースします。
関連論文リスト
- Quantum Algorithm for Sparse Online Learning with Truncated Gradient Descent [2.148134736383802]
ロジスティック回帰、SVM(Support Vector Machine)、最小二乗は統計学とコンピュータ科学のコミュニティでよく研究されている手法である。
我々は,ロジスティック回帰,SVM,最小二乗の量子スパースオンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-06T13:57:50Z) - Bayes-optimal learning of an extensive-width neural network from quadratically many samples [28.315491743569897]
本研究では,単一層ニューラルネットワークに対応する対象関数を学習する問題を考察する。
入力次元とネットワーク幅が比例的に大きい限界を考える。
論文 参考訳(メタデータ) (2024-08-07T12:41:56Z) - Sparsifying dimensionality reduction of PDE solution data with Bregman learning [1.2016264781280588]
本稿では,エンコーダ・デコーダネットワークにおいて,パラメータ数を効果的に削減し,潜在空間を圧縮する多段階アルゴリズムを提案する。
従来のAdamのようなトレーニング手法と比較して、提案手法はパラメータが30%少なく、潜在空間が著しく小さいため、同様の精度が得られる。
論文 参考訳(メタデータ) (2024-06-18T14:45:30Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Learning Smooth Neural Functions via Lipschitz Regularization [92.42667575719048]
ニューラルフィールドにおけるスムーズな潜伏空間を促進するために設計された新しい正規化を導入する。
従来のリプシッツ正規化ネットワークと比較して、我々のアルゴリズムは高速で、4行のコードで実装できる。
論文 参考訳(メタデータ) (2022-02-16T21:24:54Z) - Learning Deformable Tetrahedral Meshes for 3D Reconstruction [78.0514377738632]
学習に基づく3次元再構成に対応する3次元形状表現は、機械学習とコンピュータグラフィックスにおいてオープンな問題である。
ニューラル3D再構成に関するこれまでの研究は、利点だけでなく、ポイントクラウド、ボクセル、サーフェスメッシュ、暗黙の関数表現といった制限も示していた。
Deformable Tetrahedral Meshes (DefTet) を, ボリューム四面体メッシュを再構成問題に用いるパラメータ化として導入する。
論文 参考訳(メタデータ) (2020-11-03T02:57:01Z) - Practical Quasi-Newton Methods for Training Deep Neural Networks [12.48022619079224]
トレーニングにおいて、勾配の$n$の変数と成分の数は、しばしば数千万の順序のものであり、ヘッセン元は$n2$要素を持つ。
ブロック対角行列によりヘッセンを近似し、勾配とヘッセンの構造を用いてこれらのブロックをさらに近似する。
DNNにおけるヘシアンの不確定かつ高度に可変な性質のため、BFGSとL-BFGSの近似の上限と下限を有界に保つための新しい減衰法も提案する。
論文 参考訳(メタデータ) (2020-06-16T02:27:12Z) - Sketchy Empirical Natural Gradient Methods for Deep Learning [20.517823521066234]
本研究では,大規模ディープラーニング問題に対する効率的なスケッチ型経験勾配法 (SENG) を提案する。
SENGの分散バージョンは、非常に大規模なアプリケーション向けにも開発されている。
ImageNet-1kのタスクResNet50では、SENGは41時間以内に75.9%のTop-1テストの精度を達成した。
論文 参考訳(メタデータ) (2020-06-10T16:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。