論文の概要: Momentum Stiefel Optimizer, with Applications to Suitably-Orthogonal
Attention, and Optimal Transport
- arxiv url: http://arxiv.org/abs/2205.14173v1
- Date: Fri, 27 May 2022 18:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:23:28.177459
- Title: Momentum Stiefel Optimizer, with Applications to Suitably-Orthogonal
Attention, and Optimal Transport
- Title(参考訳): モーメントムスティフェル最適化と適切な直交姿勢と最適輸送への応用
- Authors: Lingkai Kong, Yuqing Wang, Molei Tao
- Abstract要約: 新しいアプローチは、思慮深い設計の連続力学と離散力学の相互作用に基づいて、初めて提案される。
方法は多様体の構造を正確に保存するが、一般的に使われる射影や引き抜きを必要としない。
適応学習率への一般化も示されている。
- 参考スコア(独自算出の注目度): 18.717832661972896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of optimization on Stiefel manifold, i.e., minimizing functions
of (not necessarily square) matrices that satisfy orthogonality constraints,
has been extensively studied, partly due to rich machine learning applications.
Yet, a new approach is proposed based on, for the first time, an interplay
between thoughtfully designed continuous and discrete dynamics. It leads to a
gradient-based optimizer with intrinsically added momentum. This method exactly
preserves the manifold structure but does not require commonly used projection
or retraction, and thus having low computational costs when compared to
existing algorithms. Its generalization to adaptive learning rates is also
demonstrated. Pleasant performances are observed in various practical tasks.
For instance, we discover that placing orthogonal constraints on attention
heads of trained-from-scratch Vision Transformer [Dosovitskiy et al. 2022]
could remarkably improve its performance, when our optimizer is used, and it is
better that each head is made orthogonal within itself but not necessarily to
other heads. This optimizer also makes the useful notion of Projection Robust
Wasserstein Distance [Paty & Cuturi 2019][Lin et al. 2020] for high-dim.
optimal transport even more effective.
- Abstract(参考訳): スティーフェル多様体上の最適化の問題、すなわち直交制約を満たす(必ずしも正方でない)行列の函数を最小化する問題は、部分的にはリッチ機械学習応用のために広く研究されている。
しかし, 思考的に設計された連続ダイナミクスと離散ダイナミクスの相互作用に基づいて, 新たなアプローチが提案されている。
これは本質的に運動量を加えた勾配ベースのオプティマイザにつながる。
この方法は多様体構造を正確に保存するが、一般的に使用される射影や引き算は必要とせず、既存のアルゴリズムと比較して計算コストが低い。
適応学習率への一般化も示されている。
各種の実践課題において, プレザントパフォーマンスが観察される。
例えば、訓練済みの視覚変換器(Dosovitskiy et al. 2022)の注意頭部に直交制約を配置すると、最適化器を使用する場合、その性能が著しく向上し、各頭部は内部で直交するが、必ずしも他の頭部に直交するわけではないことが分かる。
このオプティマイザはまた、プロジェクションのRobust Wasserstein Distance [Paty & Cuturi 2019][Lin et al. 2020]をハイディムに役立てています。
最適な輸送手段が より効果的です
関連論文リスト
- Operator SVD with Neural Networks via Nested Low-Rank Approximation [20.728726193728164]
本稿では, トラッピング特異値分解の低ランク近似に基づく新しい最適化フレームワークを提案する。
上位$L$特異値と正しい順序の特異関数を学習するためのネスティングと呼ばれる新しいテクニックが提示される。
本稿では,計算物理学と機械学習のユースケースに対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-02-06T03:06:06Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。
他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。
この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T03:47:14Z) - Two-step Lookahead Bayesian Optimization with Inequality Constraints [21.703234193908038]
本稿では,2段階の制約付きベイズ最適化獲得関数 (2-OPT-C) を提案する。
数値実験では、2-OPT-Cは従来の手法よりも2倍以上のクエリ効率が向上し、場合によっては10倍以上のクエリ効率が向上する。
論文 参考訳(メタデータ) (2021-12-06T07:40:54Z) - Geometry-aware Bayesian Optimization in Robotics using Riemannian
Mat\'ern Kernels [64.62221198500467]
ベイズ最適化のための幾何対応カーネルの実装方法を示す。
この技術は、ロボット工学における制御パラメータチューニング、パラメトリックポリシー適応、構造設計に利用できる。
論文 参考訳(メタデータ) (2021-11-02T09:47:22Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Efficient Optimal Transport Algorithm by Accelerated Gradient descent [20.614477547939845]
本稿では,ネステロフの平滑化手法に基づく効率と精度をさらに向上させる新しいアルゴリズムを提案する。
提案手法は,同じパラメータでより高速な収束と精度を実現する。
論文 参考訳(メタデータ) (2021-04-12T20:23:29Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。