論文の概要: Amortized Proximal Optimization
- arxiv url: http://arxiv.org/abs/2203.00089v1
- Date: Mon, 28 Feb 2022 20:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 13:43:20.685423
- Title: Amortized Proximal Optimization
- Title(参考訳): Amortized Proximal Optimization
- Authors: Juhan Bae, Paul Vicol, Jeff Z. HaoChen, Roger Grosse
- Abstract要約: Amortized Proximal Optimization (APO) は最適化を管理するパラメータのオンラインメタ最適化のためのフレームワークである。
APOが学習率や事前条件行列の構造化にどのように使えるかを示す。
学習率のオンライン適応と、回帰、画像再構成、画像分類、自然言語翻訳タスクのための構造化プレコンディショニングを実証的にテストした。
- 参考スコア(独自算出の注目度): 11.441395750267052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework for online meta-optimization of parameters that govern
optimization, called Amortized Proximal Optimization (APO). We first interpret
various existing neural network optimizers as approximate stochastic proximal
point methods which trade off the current-batch loss with proximity terms in
both function space and weight space. The idea behind APO is to amortize the
minimization of the proximal point objective by meta-learning the parameters of
an update rule. We show how APO can be used to adapt a learning rate or a
structured preconditioning matrix. Under appropriate assumptions, APO can
recover existing optimizers such as natural gradient descent and KFAC. It
enjoys low computational overhead and avoids expensive and numerically
sensitive operations required by some second-order optimizers, such as matrix
inverses. We empirically test APO for online adaptation of learning rates and
structured preconditioning matrices for regression, image reconstruction, image
classification, and natural language translation tasks. Empirically, the
learning rate schedules found by APO generally outperform optimal fixed
learning rates and are competitive with manually tuned decay schedules. Using
APO to adapt a structured preconditioning matrix generally results in
optimization performance competitive with second-order methods. Moreover, the
absence of matrix inversion provides numerical stability, making it effective
for low precision training.
- Abstract(参考訳): amortized proximal optimization (apo) と呼ばれる最適化を管理するパラメータのオンラインメタ最適化フレームワークを提案する。
まず,既存のニューラルネットワークオプティマイザを近似確率的近点法として解釈し,関数空間と重み空間の両方の近接項で電流バッチ損失を除去する。
APOの背景にある考え方は、更新ルールのパラメータをメタラーニングすることで、近点目標の最小化を減らすことである。
APOが学習率や事前条件行列の構造化にどのように使えるかを示す。
適切な仮定の下で、APOは自然勾配降下やKFACのような既存の最適化器を復元することができる。
計算オーバーヘッドが低く、行列逆数のような二階最適化器が必要とする高価な数値に敏感な操作を避ける。
学習率のオンライン適応と、回帰、画像再構成、画像分類、自然言語翻訳タスクのための構造化プレコンディショニング行列を実証的にテストした。
経験的に、APOが発見した学習率スケジュールは、一般的に最適な固定学習率よりも優れており、手動で調整された減衰スケジュールと競合する。
APOを用いて構造化プレコンディショニング行列を適用すると、一般に二階法と競合する最適化性能が得られる。
さらに,行列反転の欠如は数値的な安定性をもたらし,精度の低い学習に有効である。
関連論文リスト
- End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Preference as Reward, Maximum Preference Optimization with Importance
Sampling [4.162932802377523]
優先度学習は、言語モデルを人間の価値と整合させるための重要な技術である。
RLHFの処理は複雑で、時間がかかり、不安定である。
本稿では,重要サンプリングの観点から,シンプルで直感的な非政治的選好最適化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Adaptive Neural Ranking Framework: Toward Maximized Business Goal for
Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。
それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。
我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文 参考訳(メタデータ) (2023-10-16T14:43:02Z) - Enhancing Explainability of Hyperparameter Optimization via Bayesian
Algorithm Execution [13.037647287689438]
部分依存プロットのような解釈可能な機械学習(IML)手法とHPOの組み合わせについて検討する。
我々は,最適大域的予測性能を効率的に探索する改良HPO法を提案する。
提案手法は,最適化性能を損なうことなく,ブラックボックスの信頼性の高い説明を返す。
論文 参考訳(メタデータ) (2022-06-11T07:12:04Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Exact Pareto Optimal Search for Multi-Task Learning and Multi-Criteria
Decision-Making [10.914300987810128]
EPO 探索は線形収束速度で EPO 解に収束することを示す。
我々は, PFを後部MCDMで近似するPESA-EPOと, 対話型MCDMで誘導するGP-EPOという新しいアルゴリズムを開発した。
EPO検索は変数数と線形にスケールし、ディープEコマースネットワークに使用することができる。
論文 参考訳(メタデータ) (2021-08-02T02:13:21Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z) - A Scalable, Adaptive and Sound Nonconvex Regularizer for Low-rank Matrix
Completion [60.52730146391456]
そこで我々は,適応的かつ音質の高い"核フロベニウスノルム"と呼ばれる新しい非スケーラブルな低ランク正規化器を提案する。
特異値の計算をバイパスし、アルゴリズムによる高速な最適化を可能にする。
既存の行列学習手法では最速でありながら、最先端の回復性能が得られる。
論文 参考訳(メタデータ) (2020-08-14T18:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。