論文の概要: Learning the Step-size Policy for the Limited-Memory
Broyden-Fletcher-Goldfarb-Shanno Algorithm
- arxiv url: http://arxiv.org/abs/2010.01311v2
- Date: Tue, 9 Feb 2021 23:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 09:02:49.593414
- Title: Learning the Step-size Policy for the Limited-Memory
Broyden-Fletcher-Goldfarb-Shanno Algorithm
- Title(参考訳): broyden-fletcher-goldfarb-shannoアルゴリズムにおけるステップサイズポリシの学習
- Authors: Lucas N. Egidio, Anders Hansson, Bo Wahlberg
- Abstract要約: 本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。
入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。
ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
- 参考スコア(独自算出の注目度): 3.7470451129384825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of how to learn a step-size policy for the
Limited-Memory Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) algorithm. This is a
limited computational memory quasi-Newton method widely used for deterministic
unconstrained optimization but currently avoided in large-scale problems for
requiring step sizes to be provided at each iteration. Existing methodologies
for the step size selection for L-BFGS use heuristic tuning of design
parameters and massive re-evaluations of the objective function and gradient to
find appropriate step-lengths. We propose a neural network architecture with
local information of the current iterate as the input. The step-length policy
is learned from data of similar optimization problems, avoids additional
evaluations of the objective function, and guarantees that the output step
remains inside a pre-defined interval. The corresponding training procedure is
formulated as a stochastic optimization problem using the backpropagation
through time algorithm. The performance of the proposed method is evaluated on
the training of classifiers for the MNIST database for handwritten digits and
for CIFAR-10. The results show that the proposed algorithm outperforms
heuristically tuned optimizers such as ADAM, RMSprop, L-BFGS with a
backtracking line search, and L-BFGS with a constant step size. The numerical
results also show that a learned policy can be used as a warm-start to train
new policies for different problems after a few additional training steps,
highlighting its potential use in multiple large-scale optimization problems.
- Abstract(参考訳): 有限メモリブロイデン・フレッチャー・ゴールドファーブ・シャンノ(l-bfgs)アルゴリズムのステップサイズポリシの学習方法について検討する。
これは、決定論的非制約最適化に広く用いられている限られた計算メモリ準ニュートン法であるが、現在、各イテレーションでステップサイズを提供するために大規模な問題を避けている。
既存のL-BFGSのステップサイズ選択手法では、設計パラメータのヒューリスティックチューニングと目的関数の大規模再評価を用いて適切なステップ長を求める。
入力として電流の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。
ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を避け、出力ステップが予め定義された間隔内に留まることを保証する。
対応するトレーニング手順は、時間アルゴリズムによるバックプロパゲーションを用いて確率最適化問題として定式化される。
提案手法の性能は手書き桁のMNISTデータベースとCIFAR-10の分類器の訓練に基づいて評価される。
その結果, 提案アルゴリズムは, ADAM, RMSprop, L-BFGS, L-BFGS, L-BFGSなど, 一定のステップサイズでヒューリスティックに調整した最適化器よりも優れていた。
数値的な結果は、学習したポリシーを、いくつかの追加のトレーニングステップの後、異なる問題に対する新しいポリシーをトレーニングするためのウォームスタートとして使用できることを示している。
関連論文リスト
- Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions [10.225358400539719]
本稿では,線形作用が特徴写像に一般化される決定法(MDP)の効率的な強化アルゴリズムを提案する。
具体的には、この設定において、最適に近いポリシーを効率的に見つける新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-07T14:38:05Z) - Stochastic Ratios Tracking Algorithm for Large Scale Machine Learning
Problems [0.7614628596146599]
古典的なSGDフレームワークにおける適応的なステップ長選択のための新しいアルゴリズムを提案する。
妥当な条件下では、アルゴリズムは十分に確立された理論的な要件に従ってステップ長を生成する。
このアルゴリズムは,手動チューニングから得られる最良ステップ長に匹敵するステップ長を生成することができることを示す。
論文 参考訳(メタデータ) (2023-05-17T06:22:11Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - A Data-Driven Line Search Rule for Support Recovery in High-dimensional
Data Analysis [5.180648702293017]
適切なステップサイズを適応的に決定する新しい,効率的なデータ駆動行探索法を提案する。
線形回帰問題とロジスティック回帰問題における最先端アルゴリズムとの比較は,提案アルゴリズムの安定性,有効性,優越性を示す。
論文 参考訳(メタデータ) (2021-11-21T12:18:18Z) - Bayesian Algorithm Execution: Estimating Computable Properties of
Black-box Functions Using Mutual Information [78.78486761923855]
多くの現実世界では、T関数の評価の予算を考えると、高価なブラックボックス関数 f の性質を推測したい。
本稿では,アルゴリズムの出力に対して相互情報を最大化するクエリを逐次選択する手法InfoBAXを提案する。
これらの問題に対してInfoBAXは、元のアルゴリズムで要求されるより500倍少ないクエリをfに使用する。
論文 参考訳(メタデータ) (2021-04-19T17:22:11Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。