論文の概要: CWY Parametrization: a Solution for Parallelized Optimization of
Orthogonal and Stiefel Matrices
- arxiv url: http://arxiv.org/abs/2004.08675v3
- Date: Tue, 16 Feb 2021 13:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:10:38.090553
- Title: CWY Parametrization: a Solution for Parallelized Optimization of
Orthogonal and Stiefel Matrices
- Title(参考訳): CWYパラメトリゼーション:直交行列とスティフェル行列の並列最適化解
- Authors: Valerii Likhosherstov, Jared Davis, Krzysztof Choromanski, Adrian
Weller
- Abstract要約: 本稿では,GPUやTPUなどの並列計算ユニット上での直交群に対する効率的な最適化手法を提案する。
さらに、Stiefel多様体のパラメトリゼーションのための新しいTruncated CWY(またはT-CWY)アプローチを開発する。
我々は,ニューラルマシンビデオ予測のタスクにおいて,リカレントニューラルネットワークアーキテクチャのトレーニングに本手法を適用した。
- 参考スコア(独自算出の注目度): 41.57234424773276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an efficient approach for optimization over orthogonal groups on
highly parallel computation units such as GPUs or TPUs. As in earlier work, we
parametrize an orthogonal matrix as a product of Householder reflections.
However, to overcome low parallelization capabilities of computing Householder
reflections sequentially, we propose employing an accumulation scheme called
the compact WY (or CWY) transform -- a compact parallelization-friendly matrix
representation for the series of Householder reflections. We further develop a
novel Truncated CWY (or T-CWY) approach for Stiefel manifold parametrization
which has a competitive complexity and, again, yields benefits when computed on
GPUs and TPUs. We prove that our CWY and T-CWY methods lead to convergence to a
stationary point of the training objective when coupled with stochastic
gradient descent. We apply our methods to train recurrent neural network
architectures in the tasks of neural machine translation and video prediction.
- Abstract(参考訳): 本稿では,GPUやTPUなどの並列計算ユニット上での直交群に対する効率的な最適化手法を提案する。
初期の研究と同様に、直交行列をハウスリフレクションの積としてパラメトリズする。
しかし, 家庭内反射の低並列化を順次克服するために, コンパクトワイ変換 (compact wy, cwy transform) という, 家庭内反射の列に対するコンパクト並列化フレンドリな行列表現を用いる手法を提案する。
さらに,styfel多様体パラメトリゼーションに対する新しい切断型cwy(t-cwy)アプローチも開発し,gpuとtpusで計算した場合の利点を享受する。
我々は,我々のCWY法とT-CWY法が,確率勾配降下と組み合わせることで,トレーニング対象の定常点に収束することを証明する。
ニューラルマシン翻訳とビデオ予測のタスクにおいて,本手法をリカレントニューラルネットワークアーキテクチャのトレーニングに応用する。
関連論文リスト
- Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Iterative Reweighted Least Squares Networks With Convergence Guarantees
for Solving Inverse Imaging Problems [12.487990897680422]
解析に基づく画像正規化における画像再構成タスクの新しい最適化手法を提案する。
そのような正規化子は $ell_pp$-vector および $mathcalS_pp$ Schatten-matrix 準ノルムの重み付き拡張に対応するポテンシャル関数を用いてパラメータ化する。
提案する最小化戦略の収束保証により,メモリ効率の高い暗黙バックプロパゲーション方式により,そのような最適化を成功させることができることを示す。
論文 参考訳(メタデータ) (2023-08-10T17:59:46Z) - Givens Coordinate Descent Methods for Rotation Matrix Learning in
Trainable Embedding Indexes [19.716527782586788]
回転行列を学習するためのブロックアジェンダ座標降下アルゴリズムのファミリーを提案する。
最先端のSVD法と比較して、Givensアルゴリズムははるかに並列化可能である。
論文 参考訳(メタデータ) (2022-03-09T22:58:56Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Parallelized Computation and Backpropagation Under Angle-Parametrized
Orthogonal Matrices [0.0]
そこで本研究では, 連続した初等回転パラメトリゼーションを可換演算ブロックに再構成する方法を示す。
本稿では、生成モデルに対する関心のパラメトリックな制限について論じ、GPUのプロトタイプ実装による有望な性能結果を示す。
論文 参考訳(メタデータ) (2021-05-30T00:47:03Z) - Randomized Block-Diagonal Preconditioning for Parallel Learning [0.0]
本研究では,プレコンディショニング行列がブロック対角形を持つ事前条件付き勾配に基づく最適化手法について検討する。
本研究の主な貢献は,これらの手法の収束性がランダム化手法によって著しく向上できることを実証することである。
論文 参考訳(メタデータ) (2020-06-24T10:12:36Z) - Controllable Orthogonalization in Training DNNs [96.1365404059924]
直交性はディープニューラルネットワーク(DNN)のトレーニングに広く用いられている。
本稿では,ニュートン反復(ONI)を用いた計算効率が高く,数値的に安定な直交化法を提案する。
本稿では,画像分類ネットワークの性能向上のために,最適化の利点と表現能力の低下との間に最適なトレードオフを与えるために,直交性を効果的に制御する手法を提案する。
また、ONIは、スペクトル正規化と同様に、ネットワークのリプシッツ連続性を維持することにより、GAN(Generative Adversarial Network)のトレーニングを安定化させることを示した。
論文 参考訳(メタデータ) (2020-04-02T10:14:27Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。