論文の概要: Regret-Aware Black-Box Optimization with Natural Gradients,
Trust-Regions and Entropy Control
- arxiv url: http://arxiv.org/abs/2206.06090v1
- Date: Tue, 24 May 2022 16:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 23:32:19.194259
- Title: Regret-Aware Black-Box Optimization with Natural Gradients,
Trust-Regions and Entropy Control
- Title(参考訳): 自然勾配, 信頼度, エントロピー制御を用いたレグレト対応ブラックボックス最適化
- Authors: Maximilian H\"uttenrauch, Gerhard Neumann
- Abstract要約: CMA-ESのような最も成功したブラックボックスは、新しい検索分布を得るために個々のサンプルのランキングを使用する。
これらのアルゴリズムは、通常、検索分布の質の高い平均推定値を生成するが、これらのアルゴリズムは後悔を知らないため、生成したサンプルは品質が劣る可能性がある。
対照的に、Relative Entropy Search (MORE)アルゴリズムは、ランキングを使わずに、期待されるフィットネス機能を直接最適化する。
- 参考スコア(独自算出の注目度): 17.430247457941284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most successful stochastic black-box optimizers, such as CMA-ES, use rankings
of the individual samples to obtain a new search distribution. Yet, the use of
rankings also introduces several issues such as the underlying optimization
objective is often unclear, i.e., we do not optimize the expected fitness.
Further, while these algorithms typically produce a high-quality mean estimate
of the search distribution, the produced samples can have poor quality as these
algorithms are ignorant of the regret. Lastly, noisy fitness function
evaluations may result in solutions that are highly sub-optimal on expectation.
In contrast, stochastic optimizers that are motivated by policy gradients, such
as the Model-based Relative Entropy Stochastic Search (MORE) algorithm,
directly optimize the expected fitness function without the use of rankings.
MORE can be derived by applying natural policy gradients and compatible
function approximation, and is using information theoretic constraints to
ensure the stability of the policy update. While MORE does not suffer from the
listed limitations, it often cannot achieve state of the art performance in
comparison to ranking based methods. We improve MORE by decoupling the update
of the mean and covariance of the search distribution allowing for more
aggressive updates on the mean while keeping the update on the covariance
conservative, an improved entropy scheduling technique based on an evolution
path which results in faster convergence and a simplified and more effective
model learning approach in comparison to the original paper. We compare our
algorithm to state of the art black-box optimization algorithms on standard
optimization tasks as well as on episodic RL tasks in robotics where it is also
crucial to have small regret. We obtain competitive results on benchmark
functions and clearly outperform ranking-based methods in terms of regret on
the RL tasks.
- Abstract(参考訳): 最も成功したCMA-ESのような確率的ブラックボックスオプティマイザは、個々のサンプルのランキングを使って新しい検索分布を得る。
しかし、ランキングの使用は、基盤となる最適化の目的はしばしば不明確であり、例えば、期待される適合度を最適化しないなど、いくつかの問題も引き起こす。
さらに、これらのアルゴリズムは、通常、検索分布の高品質な平均推定値を生成するが、これらのアルゴリズムは後悔を知らないため、生成したサンプルは品質が劣る可能性がある。
最後に、ノイズの多いフィットネス関数の評価は、期待に準ずる解をもたらす可能性がある。
対照的に、モデルベースの相対エントロピー確率探索(MORE)アルゴリズムのようなポリシー勾配に動機づけられた確率最適化器は、ランキングを使わずに、期待される適合関数を直接最適化する。
さらには、自然政策勾配と互換性のある関数近似を適用することで導出することができ、ポリシー更新の安定性を確保するために情報理論的な制約を用いる。
MOREは指定された制限に悩まされることはないが、ランキングベースの手法と比較して、技術パフォーマンスの状態を達成できないことが多い。
探索分布の平均と共分散の更新を分離することでMOREを改良し、共分散の保守性を維持しつつ平均のより積極的な更新を可能にするとともに、進化経路に基づくエントロピースケジューリング技術を改良し、元の論文と比較してより高速に収束し、より効率的なモデル学習アプローチを実現する。
提案アルゴリズムは,ロボット工学において,標準的な最適化タスクや韻律的RLタスクにおけるブラックボックス最適化アルゴリズムの状況と比較する。
ベンチマーク関数の競合結果を得るとともに、RLタスクに対する後悔の観点からランク付けに基づく手法よりも明らかに優れている。
関連論文リスト
- Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning [5.325297567945828]
本稿では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。
提案アルゴリズムは,様々な条件下で特徴付けられ,オンラインサンプルベース手法に特化していることを示す。
論文 参考訳(メタデータ) (2024-05-15T19:03:08Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - On Adaptivity in Non-stationary Stochastic Optimization With Bandit
Feedback [11.208914594208654]
集約された関数の変化が事前認識されている場合、単純な再起動アルゴリズムが最適の動的後悔を達成できることが示される。
また,静止ベンチマークに対して良好な後悔を達成するアルゴリズムを,動的ベンチマークに対して良い後悔を与えるアルゴリズムに自動的に変換できることを示す。
論文 参考訳(メタデータ) (2022-10-11T16:16:34Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Meta Learning Black-Box Population-Based Optimizers [0.0]
人口ベースのブラックボックス一般化を推論するメタラーニングの利用を提案する。
メタロス関数は,学習アルゴリズムが検索動作を変更することを促進し,新たなコンテキストに容易に適合できることを示す。
論文 参考訳(メタデータ) (2021-03-05T08:13:25Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Better Parameter-free Stochastic Optimization with ODE Updates for
Coin-Betting [31.60239268539764]
PFSGDアルゴリズムは最適理論性能を達成しながら、学習速度の設定を必要としない。
そこで本稿では, トランク型モデル上での連続時間Coin-Bettingに基づく新しいパラメータフリーアルゴリズムにより, 経験的ギャップを埋める。
この新しいパラメータフリーアルゴリズムは「最良のデフォルト」学習率でアルゴリズムを上回り、チューニングの必要なく微調整されたベースラインの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2020-06-12T23:10:25Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。