論文の概要: Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence
Optimization
- arxiv url: http://arxiv.org/abs/2105.12991v1
- Date: Thu, 27 May 2021 08:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:16:38.139298
- Title: Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence
Optimization
- Title(参考訳): Forward Kullback-Leibler Divergence Optimization による最適強化学習
- Authors: Taisuke Kobayashi
- Abstract要約: 本稿では、強化学習(RL)の新たな解釈を、KL(Kulback-Leibler)の分散最適化として扱う。
前方KL分散を用いた新しい最適化手法を導出する。
現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
- 参考スコア(独自算出の注目度): 1.7970523486905976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses a new interpretation of reinforcement learning (RL) as
reverse Kullback-Leibler (KL) divergence optimization, and derives a new
optimization method using forward KL divergence. Although RL originally aims to
maximize return indirectly through optimization of policy, the recent work by
Levine has proposed a different derivation process with explicit consideration
of optimality as stochastic variable. This paper follows this concept and
formulates the traditional learning laws for both value function and policy as
the optimization problems with reverse KL divergence including optimality.
Focusing on the asymmetry of KL divergence, the new optimization problems with
forward KL divergence are derived. Remarkably, such new optimization problems
can be regarded as optimistic RL. That optimism is intuitively specified by a
hyperparameter converted from an uncertainty parameter. In addition, it can be
enhanced when it is integrated with prioritized experience replay and
eligibility traces, both of which accelerate learning. The effects of this
expected optimism was investigated through learning tendencies on numerical
simulations using Pybullet. As a result, moderate optimism accelerated learning
and yielded higher rewards. In a realistic robotic simulation, the proposed
method with the moderate optimism outperformed one of the state-of-the-art RL
method.
- Abstract(参考訳): 本稿では,強化学習(RL)を逆Kullback-Leibler(KL)分散最適化と解釈し,前方KL分散を用いた新しい最適化手法を提案する。
RL は当初、ポリシーの最適化を通じて間接的に戻りを最大化することを目的としていたが、Levin の最近の研究は、確率変数としての最適性を明確に考慮した異なる導出プロセスを提案している。
本稿では,この概念に従い,価値関数と政策の両方に対する従来の学習則を,最適性を含む逆kl発散を伴う最適化問題として定式化する。
KL分散の非対称性に着目して、前方KL分散を伴う新しい最適化問題を導出する。
注目すべきことに、このような新しい最適化問題は楽観的なRLと見なすことができる。
その楽観性は不確実性パラメータから変換されたハイパーパラメータによって直感的に特定される。
さらに、優先された体験リプレイや、学習を加速する適性トレースと統合された場合には、強化することができる。
この最適化がPybulletを用いた数値シミュレーションに与える影響を学習傾向から検討した。
その結果、適度な楽観主義は学習を加速し、より高い報酬を得た。
現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
関連論文リスト
- End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Accelerating the Evolutionary Algorithms by Gaussian Process Regression
with $\epsilon$-greedy acquisition function [2.7716102039510564]
本稿では,最適化の収束を早めるために,エリート個人を推定する新しい手法を提案する。
我々の提案には、エリート個人を推定し、最適化の収束を加速する幅広い見通しがある。
論文 参考訳(メタデータ) (2022-10-13T07:56:47Z) - Teaching Networks to Solve Optimization Problems [13.803078209630444]
反復解法をトレーニング可能なパラメトリック集合関数に置き換えることを提案する。
このようなパラメトリックな(集合)関数を学習することで、様々な古典的最適化問題を解くことができることを示す。
論文 参考訳(メタデータ) (2022-02-08T19:13:13Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Better call Surrogates: A hybrid Evolutionary Algorithm for
Hyperparameter optimization [18.359749929678635]
機械学習(ML)モデルのハイパーパラメータ最適化のための代理支援進化アルゴリズム(EA)を提案する。
提案したSTEADEモデルは,まずRadialBasis関数を用いて目的関数のランドスケープを推定し,その知識を微分進化(differial Evolution)と呼ばれるEA技術に伝達する。
NeurIPS 2020のブラックボックス最適化課題の一環として、ハイパーパラメータ最適化問題に関するモデルを実証的に評価し、STEADEがバニラEAにもたらした改善を実証しました。
論文 参考訳(メタデータ) (2020-12-11T16:19:59Z) - Real-Time Optimization Meets Bayesian Optimization and Derivative-Free
Optimization: A Tale of Modifier Adaptation [0.0]
本稿では,不確実なプロセスのリアルタイム最適化において,プラントモデルミスマッチを克服するための修飾子適応方式について検討する。
提案したスキームは物理モデルを組み込んでおり、探査中のリスクを最小限に抑えるために信頼領域のアイデアに依存している。
取得関数の使用、プロセスノイズレベルを知る、または名目上のプロセスモデルを指定する利点を図示する。
論文 参考訳(メタデータ) (2020-09-18T12:57:17Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。