論文の概要: Revisiting Scalable Hessian Diagonal Approximations for Applications in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.03276v1
- Date: Wed, 5 Jun 2024 13:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:01:08.379750
- Title: Revisiting Scalable Hessian Diagonal Approximations for Applications in Reinforcement Learning
- Title(参考訳): 強化学習への応用のためのスケーラブルヘッセン対角近似の再検討
- Authors: Mohamed Elsayed, Homayoon Farrahi, Felix Dangel, A. Rupam Mahmood,
- Abstract要約: 二次情報は多くのアプリケーションにとって価値があるが、計算は困難である。
BL89よりも改善されたHesScaleを導入し、無視できる余分な計算を追加した。
小さなネットワークでは、この改善は全ての代替品よりも高い品質であり、不偏性のような理論的保証のあるものでさえも計算がより安価である。
- 参考スコア(独自算出の注目度): 6.383513606898132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Second-order information is valuable for many applications but challenging to compute. Several works focus on computing or approximating Hessian diagonals, but even this simplification introduces significant additional costs compared to computing a gradient. In the absence of efficient exact computation schemes for Hessian diagonals, we revisit an early approximation scheme proposed by Becker and LeCun (1989, BL89), which has a cost similar to gradients and appears to have been overlooked by the community. We introduce HesScale, an improvement over BL89, which adds negligible extra computation. On small networks, we find that this improvement is of higher quality than all alternatives, even those with theoretical guarantees, such as unbiasedness, while being much cheaper to compute. We use this insight in reinforcement learning problems where small networks are used and demonstrate HesScale in second-order optimization and scaling the step-size parameter. In our experiments, HesScale optimizes faster than existing methods and improves stability through step-size scaling. These findings are promising for scaling second-order methods in larger models in the future.
- Abstract(参考訳): 二次情報は多くのアプリケーションにとって価値があるが、計算は困難である。
いくつかの研究はヘッセン対角線の計算や近似に重点を置いているが、この単純化でさえ、勾配の計算に比べてかなりのコストがかかる。
ヘッセン対角線に対する効率的な正確な計算スキームがないため、ベッカーとルクーン (1989, BL89) が提唱した早期近似スキームを再検討する。
BL89よりも改善されたHesScaleを導入し、無視できる余分な計算を追加した。
小さなネットワークでは、この改善は全ての代替品よりも高い品質であり、不偏性のような理論的保証のあるものでさえも計算がより安価である。
この知見を,小規模ネットワークを用いた強化学習問題に応用し,第2次最適化とステップサイズパラメータのスケーリングにおいてHesScaleを実証する。
私たちの実験では、HesScaleは既存のメソッドよりも高速に最適化し、ステップサイズのスケーリングによって安定性を改善します。
これらの発見は、将来的にはより大規模なモデルで2階法をスケールすることが期待できる。
関連論文リスト
- Approximating Metric Magnitude of Point Sets [4.522729058300309]
計量等級は、多くの望ましい幾何学的性質を持つ点雲の「大きさ」の尺度である。
様々な数学的文脈に適応しており、最近の研究は機械学習と最適化アルゴリズムを強化することを示唆している。
本稿では, 等級問題について検討し, 効率よく近似する方法を示し, 凸最適化問題として扱うことができるが, 部分モジュラ最適化としては適用できないことを示す。
本稿では,高速に収束し精度の高い反復近似アルゴリズムと,計算をより高速に行うサブセット選択法という,2つの新しいアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2024-09-06T17:15:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - HesScale: Scalable Computation of Hessian Diagonals [2.398608007786179]
HesScaleは、ヘッセン行列の対角線を近似するスケーラブルなアプローチである。
HesScaleはバックプロパゲーションと同じ計算複雑性を持つことを示す。
論文 参考訳(メタデータ) (2022-10-20T23:50:56Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。