論文の概要: Training Invertible Linear Layers through Rank-One Perturbations
- arxiv url: http://arxiv.org/abs/2010.07033v2
- Date: Tue, 1 Dec 2020 00:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 13:20:43.973898
- Title: Training Invertible Linear Layers through Rank-One Perturbations
- Title(参考訳): ランク1摂動による可逆線形層の訓練
- Authors: Andreas Kr\"amer, Jonas K\"ohler and Frank No\'e
- Abstract要約: この研究は、非可逆線形層をトレーニングするための新しいアプローチを示す。
ネットワークパラメータを直接最適化する代わりに、ランク1の摂動を訓練し、しばしば実際の重み行列に追加する。
このような非可逆ブロックが混合性を改善し, 結果として発生する流れのモード分離を正規化する方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many types of neural network layers rely on matrix properties such as
invertibility or orthogonality. Retaining such properties during optimization
with gradient-based stochastic optimizers is a challenging task, which is
usually addressed by either reparameterization of the affected parameters or by
directly optimizing on the manifold. This work presents a novel approach for
training invertible linear layers. In lieu of directly optimizing the network
parameters, we train rank-one perturbations and add them to the actual weight
matrices infrequently. This P$^{4}$Inv update allows keeping track of inverses
and determinants without ever explicitly computing them. We show how such
invertible blocks improve the mixing and thus the mode separation of the
resulting normalizing flows. Furthermore, we outline how the P$^4$ concept can
be utilized to retain properties other than invertibility.
- Abstract(参考訳): 多くのタイプのニューラルネットワーク層は、可逆性や直交性のような行列特性に依存している。
勾配に基づく確率最適化器による最適化中にそのような特性を保持することは、通常、影響を受けるパラメータの再パラメータ化または多様体に直接最適化することで対処される、難しい課題である。
本稿では,可逆線形層を訓練するための新しい手法を提案する。
ネットワークパラメータを直接最適化する代わりに、ランク1の摂動を訓練し、しばしば実際の重み行列に追加する。
このP$^{4}$Invアップデートは、明示的に計算することなく逆数や行列式の追跡を可能にする。
このような非可逆ブロックが混合を改善することを示し、その結果の正規化フローのモード分離を示す。
さらに, p$^4$の概念を可逆性以外の性質の保持に活用する方法について概説する。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Optimal Matrix-Mimetic Tensor Algebras via Variable Projection [0.0]
行列緩和性(Matrix mimeticity)は、テンソルを、行列に類似した乗算、分解、解析が可能な作用素として解釈することから生じる。
我々は、データの事前の知識に頼ることなく、最適線形写像と対応するテンソル表現を学習する。
可変射影型アルゴリズムの変換と収束解析の独創性理論を提供する。
論文 参考訳(メタデータ) (2024-06-11T04:52:23Z) - Unnatural Algorithms in Machine Learning [0.0]
この特性を持つ最適化アルゴリズムは、自然勾配降下の離散近似とみなすことができる。
本稿では、この自然性をより一般的に導入する簡単な方法を紹介し、多くの一般的な機械学習トレーニングアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2023-12-07T22:43:37Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Smooth over-parameterized solvers for non-smooth structured optimization [3.756550107432323]
非滑らか性 (non-smoothness) は、空間性、群空間性、低ランクエッジ、鋭いエッジなどの解の構造的制約を符号化する。
我々は、基礎となる非滑らかな最適化問題の非重み付きだが滑らかな過度パラメータ化を運用する。
我々の主な貢献は変数の一部を明示的に最小化することで新しい定式化を定義する変数射影(VarPro)を適用することです。
論文 参考訳(メタデータ) (2022-05-03T09:23:07Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - On the training of sparse and dense deep neural networks: less
parameters, same performance [0.0]
本稿では,2021年に発表されたスペクトル学習手法の変種を提案する。
固有値は検証可能なノブとして機能し、(i)入力ノードの寄与を増強したり、あるいは沈黙したりするために自由に調整することができる。
それぞれのスペクトルパラメータはノード間重みの集合全体を反映しており、この特性を効果的に活用し、見事な分類能力を持つスパースネットワークを創出する。
論文 参考訳(メタデータ) (2021-06-17T14:54:23Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - Eigendecomposition-Free Training of Deep Networks for Linear
Least-Square Problems [107.3868459697569]
我々は、ディープネットワークのトレーニングに固有分解のないアプローチを導入する。
この手法は固有分解の明示的な微分よりもはるかに堅牢であることを示す。
我々の手法は収束特性が良く、最先端の結果が得られます。
論文 参考訳(メタデータ) (2020-04-15T04:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。