論文の概要: Tangent-Space Gradient Optimization of Tensor Network for Machine
Learning
- arxiv url: http://arxiv.org/abs/2001.04029v1
- Date: Fri, 10 Jan 2020 16:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 22:55:14.386977
- Title: Tangent-Space Gradient Optimization of Tensor Network for Machine
Learning
- Title(参考訳): 機械学習のためのテンソルネットワークの空間勾配最適化
- Authors: Zheng-zhi Sun, Shi-ju Ran and Gang Su
- Abstract要約: ディープラーニングモデルの勾配に基づく最適化手法は、勾配の消滅と爆発的な問題に悩まされている。
本研究では,確率モデルに対するタンジェント空間勾配最適化(TSGO)を提案する。
数値計算の結果,市販のAdamと比較してTSGOの収束性は良好であった。
- 参考スコア(独自算出の注目度): 0.8701566919381223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The gradient-based optimization method for deep machine learning models
suffers from gradient vanishing and exploding problems, particularly when the
computational graph becomes deep. In this work, we propose the tangent-space
gradient optimization (TSGO) for the probabilistic models to keep the gradients
from vanishing or exploding. The central idea is to guarantee the orthogonality
between the variational parameters and the gradients. The optimization is then
implemented by rotating parameter vector towards the direction of gradient. We
explain and testify TSGO in tensor network (TN) machine learning, where the TN
describes the joint probability distribution as a normalized state $\left| \psi
\right\rangle $ in Hilbert space. We show that the gradient can be restricted
in the tangent space of $\left\langle \psi \right.\left| \psi \right\rangle =
1$ hyper-sphere. Instead of additional adaptive methods to control the learning
rate in deep learning, the learning rate of TSGO is naturally determined by the
angle $\theta $ as $\eta = \tan \theta $. Our numerical results reveal better
convergence of TSGO in comparison to the off-the-shelf Adam.
- Abstract(参考訳): 深層機械学習モデルの勾配に基づく最適化手法は、特に計算グラフが深い場合には、勾配の消失と爆発に苦しむ。
本研究では,確率モデルに対して,勾配の消滅や爆発を防止するために,タンジェント空間勾配最適化(TSGO)を提案する。
中心となる考え方は、変動パラメータと勾配の間の直交性を保証することである。
次に、勾配方向の回転パラメータベクトルにより最適化を行う。
テンソルネットワーク(TN)におけるTSGOの説明と検証を行い、TNはヒルベルト空間における結合確率分布を正規化状態 $\left| \psi \right\rangle $ と記述する。
勾配は$\left\langle \psi \right の接空間において制限可能であることを示す。
左| \psi \right\rangle = 1$ hyper-sphere。
深層学習における学習率を制御するための追加の適応的手法の代わりに、TSGOの学習率は自然に$\theta $ as $\eta = \tan \theta $である。
数値計算の結果,市販のAdamと比較してTSGOの収束性は良好であった。
関連論文リスト
- How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - On the equivalence of different adaptive batch size selection strategies
for stochastic gradient descent methods [0.0]
本研究では, 標準検定と内積/直交検定は, グラディエント・Descent(SGD)法に付随する収束率の点で等価であることを示す。
また、内部積/直交性テストは、ベストケースシナリオにおける通常のテストと同じくらい安価であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:01:15Z) - A Variance Controlled Stochastic Method with Biased Estimation for
Faster Non-convex Optimization [0.0]
減少勾配(SVRG)の性能を向上させるために, 分散制御勾配(VCSG)という新しい手法を提案する。
ラムダ$はVCSGで導入され、SVRGによる分散の過剰還元を避ける。
$mathcalO(min1/epsilon3/2,n1/4/epsilon)$ 勾配評価の数。
論文 参考訳(メタデータ) (2021-02-19T12:22:56Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。