論文の概要: Towards Listening to 10 People Simultaneously: An Efficient Permutation
Invariant Training of Audio Source Separation Using Sinkhorn's Algorithm
- arxiv url: http://arxiv.org/abs/2010.11871v2
- Date: Sun, 16 May 2021 13:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:37:12.852854
- Title: Towards Listening to 10 People Simultaneously: An Efficient Permutation
Invariant Training of Audio Source Separation Using Sinkhorn's Algorithm
- Title(参考訳): 10人の同時聴取に向けて:シンクホーンのアルゴリズムを用いた音源分離の効率的な変分学習
- Authors: Hideyuki Tachibana
- Abstract要約: ニューラルネットワークに基づく一音節音声分離技術では、最近、置換不変訓練(PIT)の損失を用いて損失を評価することが一般的である。
本稿では,PIT損失の新たな変種であるSinkPITを提案する。
- 参考スコア(独自算出の注目度): 9.340611077939828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In neural network-based monaural speech separation techniques, it has been
recently common to evaluate the loss using the permutation invariant training
(PIT) loss. However, the ordinary PIT requires to try all $N!$ permutations
between $N$ ground truths and $N$ estimates. Since the factorial complexity
explodes very rapidly as $N$ increases, a PIT-based training works only when
the number of source signals is small, such as $N = 2$ or $3$. To overcome this
limitation, this paper proposes a SinkPIT, a novel variant of the PIT losses,
which is much more efficient than the ordinary PIT loss when $N$ is large. The
SinkPIT is based on Sinkhorn's matrix balancing algorithm, which efficiently
finds a doubly stochastic matrix which approximates the best permutation in a
differentiable manner. The author conducted an experiment to train a neural
network model to decompose a single-channel mixture into 10 sources using the
SinkPIT, and obtained promising results.
- Abstract(参考訳): ニューラルネットワークに基づくモノーラル音声分離手法では,近年,permutation invariant training (pit) 損失を用いて損失を評価することが一般的である。
しかし、通常のPITはすべての$Nを試す必要がある。
は$N$の真理と$N$の見積もりの間にある。
因子的複雑性はN$が増加するにつれて急速に爆発するので、PITベースのトレーニングは、N = 2$や3$のようなソース信号の数が少ない場合にのみ機能する。
この制限を克服するために,N$が大きければ通常のPIT損失よりもはるかに効率的である新しいPIT損失の変種であるSinkPITを提案する。
SinkPITはシンクホーンの行列バランスアルゴリズムに基づいており、このアルゴリズムは2倍確率行列を効率よく見つけ、最適な置換を微分可能な方法で近似する。
筆者らは,SinkPITを用いてニューラルネットワークモデルを用いて,単一チャネル混合物を10ソースに分解する実験を行い,有望な結果を得た。
関連論文リスト
- Matching the Statistical Query Lower Bound for k-sparse Parity Problems with Stochastic Gradient Descent [83.85536329832722]
勾配勾配降下(SGD)は,$d$次元ハイパーキューブ上の$k$パリティ問題を効率的に解くことができることを示す。
次に、SGDでトレーニングされたニューラルネットワークがどのようにして、小さな統計的エラーで$k$-parityの問題を解決するかを実証する。
論文 参考訳(メタデータ) (2024-04-18T17:57:53Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Many-Speakers Single Channel Speech Separation with Optimal Permutation
Training [91.22679787578438]
我々は、$O(C3)$時間の複雑さで訓練するためにハンガリーのアルゴリズムを使用する置換不変トレーニングを提示します。
私たちのアプローチは、最大$ 20$スピーカーを分離し、大きな$ C$の以前の結果を幅広いマージンで改善します。
論文 参考訳(メタデータ) (2021-04-18T20:56:12Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z) - Momentum-based variance-reduced proximal stochastic gradient method for
composite nonconvex stochastic optimization [8.014215296763435]
勾配学習法(SGM)は、問題解決や大規模機械学習問題に広く用いられている。
我々は,非滑らかな問題を解くための新しいSGM,PStormを提案する。
論文 参考訳(メタデータ) (2020-05-31T03:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。