論文の概要: Efficient Riemannian Optimization on the Stiefel Manifold via the Cayley
Transform
- arxiv url: http://arxiv.org/abs/2002.01113v1
- Date: Tue, 4 Feb 2020 04:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:32:37.449396
- Title: Efficient Riemannian Optimization on the Stiefel Manifold via the Cayley
Transform
- Title(参考訳): ケイリー変換によるスティーフェル多様体の効率的なリーマン最適化
- Authors: Jun Li, Li Fuxin, Sinisa Todorovic
- Abstract要約: 最適化更新のための反復ケイリー変換に基づく新しい効率的なリトラクションマップを提案する。
モーメントを持つケイリーSGDと、スティーフェル多様体上のケイリーADAMの2つの新しい最適化アルゴリズムを指定する。
- 参考スコア(独自算出の注目度): 34.04895971415549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Strictly enforcing orthonormality constraints on parameter matrices has been
shown advantageous in deep learning. This amounts to Riemannian optimization on
the Stiefel manifold, which, however, is computationally expensive. To address
this challenge, we present two main contributions: (1) A new efficient
retraction map based on an iterative Cayley transform for optimization updates,
and (2) An implicit vector transport mechanism based on the combination of a
projection of the momentum and the Cayley transform on the Stiefel manifold. We
specify two new optimization algorithms: Cayley SGD with momentum, and Cayley
ADAM on the Stiefel manifold. Convergence of Cayley SGD is theoretically
analyzed. Our experiments for CNN training demonstrate that both algorithms:
(a) Use less running time per iteration relative to existing approaches that
enforce orthonormality of CNN parameters; and (b) Achieve faster convergence
rates than the baseline SGD and ADAM algorithms without compromising the
performance of the CNN. Cayley SGD and Cayley ADAM are also shown to reduce the
training time for optimizing the unitary transition matrices in RNNs.
- Abstract(参考訳): パラメータ行列に厳密な正規性制約を課すことは、ディープラーニングにおいて有利であることが示されている。
これは、スティフェル多様体上のリーマン最適化に相当するが、計算上は高価である。
この課題に対処するために、(1) 最適化更新のための反復ケイリー変換に基づく新しい効率的なリトラクションマップ、(2) モーメントの射影とスティーフェル多様体上のケイリー変換の組み合わせに基づく暗黙的なベクトル輸送機構を提案する。
モーメントを持つケイリーSGDと、スティーフェル多様体上のケイリーADAMの2つの新しい最適化アルゴリズムを指定する。
Cayley SGDの収束性は理論的に解析される。
cnnトレーニングの実験では どちらのアルゴリズムも
(a)CNNパラメータの正規性を強制する既存のアプローチと比較してイテレーション毎の実行時間の削減。
b) CNNの性能を損なうことなく, ベースラインSGDおよびADAMアルゴリズムよりも高速収束率を得る。
Cayley SGDとCayley ADAMもまた、RNNのユニタリ遷移行列を最適化するためのトレーニング時間を短縮することを示した。
関連論文リスト
- SGD with Partial Hessian for Deep Neural Networks Optimization [18.78728272603732]
本稿では,チャネルワイドパラメータを更新するための2次行列と,他のパラメータを更新するための1次勾配降下(SGD)アルゴリズムを組み合わせた化合物を提案する。
一階述語と比較して、最適化を支援するためにヘッセン行列からの一定の量の情報を採用するが、既存の二階述語一般化と比較すると、一階述語一般化の性能は不正確である。
論文 参考訳(メタデータ) (2024-03-05T06:10:21Z) - Reducing measurement costs by recycling the Hessian in adaptive variational quantum algorithms [0.0]
本稿では,適応VQAに適した準ニュートン最適化プロトコルを提案する。
我々は,適応VQAの繰り返しを通じて,逆ヘッセン行列に対する近似を連続的に構築し,成長させる準ニュートンアルゴリズムを実装した。
論文 参考訳(メタデータ) (2024-01-10T14:08:04Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Nesterov Accelerated ADMM for Fast Diffeomorphic Image Registration [63.15453821022452]
ディープラーニングに基づくアプローチの最近の発展は、DiffIRのサブ秒間実行を実現している。
本稿では,中間定常速度場を機能的に構成する簡易な反復スキームを提案する。
次に、任意の順序の正規化項を用いて、これらの速度場に滑らかさを課す凸最適化モデルを提案する。
論文 参考訳(メタデータ) (2021-09-26T19:56:45Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Adaptive Non-reversible Stochastic Gradient Langevin Dynamics [21.796874356469644]
ランゲヴィン力学アルゴリズムの数値化に任意のスキュー対称勾配を加えることは、収束率を改良した非可逆拡散をもたらすことはよく知られている。
本稿では,スキュー対称行列の選択を適応的に最適化する勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-26T21:34:01Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。