論文の概要: Relative gradient optimization of the Jacobian term in unsupervised deep
learning
- arxiv url: http://arxiv.org/abs/2006.15090v2
- Date: Tue, 27 Oct 2020 00:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:15:15.798020
- Title: Relative gradient optimization of the Jacobian term in unsupervised deep
learning
- Title(参考訳): 教師なし深層学習におけるジャコビアン項の相対勾配最適化
- Authors: Luigi Gresele, Giancarlo Fissore, Adri\'an Javaloy, Bernhard
Sch\"olkopf and Aapo Hyv\"arinen
- Abstract要約: データを正しく記述した表現的確率モデルを学習することは、機械学習におけるユビキタスな問題である。
このタスクには深度モデルが広く使用されているが、その最大可能性に基づくトレーニングでは、ジャコビアンの対数行列式を推定する必要がある。
このようなニューラルネットワークの正確なトレーニングのための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 9.385902422987677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning expressive probabilistic models correctly describing the data is a
ubiquitous problem in machine learning. A popular approach for solving it is
mapping the observations into a representation space with a simple joint
distribution, which can typically be written as a product of its marginals --
thus drawing a connection with the field of nonlinear independent component
analysis. Deep density models have been widely used for this task, but their
maximum likelihood based training requires estimating the log-determinant of
the Jacobian and is computationally expensive, thus imposing a trade-off
between computation and expressive power. In this work, we propose a new
approach for exact training of such neural networks. Based on relative
gradients, we exploit the matrix structure of neural network parameters to
compute updates efficiently even in high-dimensional spaces; the computational
cost of the training is quadratic in the input size, in contrast with the cubic
scaling of naive approaches. This allows fast training with objective functions
involving the log-determinant of the Jacobian, without imposing constraints on
its structure, in stark contrast to autoregressive normalizing flows.
- Abstract(参考訳): データを正しく記述する表現的確率モデルを学ぶことは、機械学習においてユビキタスな問題である。
この問題を解くための一般的なアプローチは、観測結果を単純なジョイント分布を持つ表現空間にマッピングすることであり、これは典型的には、非線形独立成分分析の場と接続する辺の積として書くことができる。
深層密度モデルはこのタスクに広く用いられてきたが、最大確率に基づくトレーニングにはジャコビアンの対数決定式の推定が必要であり、計算コストがかかるため、計算と表現力の間のトレードオフが生じる。
本研究では,このようなニューラルネットワークの厳密なトレーニングのための新しい手法を提案する。
相対勾配に基づいて,ニューラルネットワークパラメータの行列構造を利用して,高次元空間においても更新を効率的に計算する。
これにより、自己回帰正規化フローとは対照的に、構造に制約を課すことなく、ジャコビアンの対数行列を含む客観的関数による高速な訓練が可能となる。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文 参考訳(メタデータ) (2023-07-06T15:19:53Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - Scalable computation of prediction intervals for neural networks via
matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。
本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-06T13:18:31Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - Probabilistic partition of unity networks: clustering based deep
approximation [0.0]
ユニタリネットワーク(POU-Nets)の分割は、回帰とPDEの解に対する代数収束率を実現することができる。
ガウス雑音モデルを用いてPOU-Netを拡張し、最大可算損失の勾配に基づく一般化を導出できる確率的一般化を得る。
本研究では,高次元・低次元での性能を定量化するためのベンチマークを行い,高次元空間内のデータの潜在次元にのみ依存することを示す。
論文 参考訳(メタデータ) (2021-07-07T08:02:00Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。