論文の概要: Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence
Optimization
- arxiv url: http://arxiv.org/abs/2105.12991v1
- Date: Thu, 27 May 2021 08:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:16:38.139298
- Title: Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence
Optimization
- Title(参考訳): Forward Kullback-Leibler Divergence Optimization による最適強化学習
- Authors: Taisuke Kobayashi
- Abstract要約: 本稿では、強化学習(RL)の新たな解釈を、KL(Kulback-Leibler)の分散最適化として扱う。
前方KL分散を用いた新しい最適化手法を導出する。
現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
- 参考スコア(独自算出の注目度): 1.7970523486905976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses a new interpretation of reinforcement learning (RL) as
reverse Kullback-Leibler (KL) divergence optimization, and derives a new
optimization method using forward KL divergence. Although RL originally aims to
maximize return indirectly through optimization of policy, the recent work by
Levine has proposed a different derivation process with explicit consideration
of optimality as stochastic variable. This paper follows this concept and
formulates the traditional learning laws for both value function and policy as
the optimization problems with reverse KL divergence including optimality.
Focusing on the asymmetry of KL divergence, the new optimization problems with
forward KL divergence are derived. Remarkably, such new optimization problems
can be regarded as optimistic RL. That optimism is intuitively specified by a
hyperparameter converted from an uncertainty parameter. In addition, it can be
enhanced when it is integrated with prioritized experience replay and
eligibility traces, both of which accelerate learning. The effects of this
expected optimism was investigated through learning tendencies on numerical
simulations using Pybullet. As a result, moderate optimism accelerated learning
and yielded higher rewards. In a realistic robotic simulation, the proposed
method with the moderate optimism outperformed one of the state-of-the-art RL
method.
- Abstract(参考訳): 本稿では,強化学習(RL)を逆Kullback-Leibler(KL)分散最適化と解釈し,前方KL分散を用いた新しい最適化手法を提案する。
RL は当初、ポリシーの最適化を通じて間接的に戻りを最大化することを目的としていたが、Levin の最近の研究は、確率変数としての最適性を明確に考慮した異なる導出プロセスを提案している。
本稿では,この概念に従い,価値関数と政策の両方に対する従来の学習則を,最適性を含む逆kl発散を伴う最適化問題として定式化する。
KL分散の非対称性に着目して、前方KL分散を伴う新しい最適化問題を導出する。
注目すべきことに、このような新しい最適化問題は楽観的なRLと見なすことができる。
その楽観性は不確実性パラメータから変換されたハイパーパラメータによって直感的に特定される。
さらに、優先された体験リプレイや、学習を加速する適性トレースと統合された場合には、強化することができる。
この最適化がPybulletを用いた数値シミュレーションに与える影響を学習傾向から検討した。
その結果、適度な楽観主義は学習を加速し、より高い報酬を得た。
現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。
近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。
以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T12:23:54Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant
Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文 参考訳(メタデータ) (2023-05-09T23:51:24Z) - Accelerating the Evolutionary Algorithms by Gaussian Process Regression
with $\epsilon$-greedy acquisition function [2.7716102039510564]
本稿では,最適化の収束を早めるために,エリート個人を推定する新しい手法を提案する。
我々の提案には、エリート個人を推定し、最適化の収束を加速する幅広い見通しがある。
論文 参考訳(メタデータ) (2022-10-13T07:56:47Z) - Teaching Networks to Solve Optimization Problems [13.803078209630444]
反復解法をトレーニング可能なパラメトリック集合関数に置き換えることを提案する。
このようなパラメトリックな(集合)関数を学習することで、様々な古典的最適化問題を解くことができることを示す。
論文 参考訳(メタデータ) (2022-02-08T19:13:13Z) - Better call Surrogates: A hybrid Evolutionary Algorithm for
Hyperparameter optimization [18.359749929678635]
機械学習(ML)モデルのハイパーパラメータ最適化のための代理支援進化アルゴリズム(EA)を提案する。
提案したSTEADEモデルは,まずRadialBasis関数を用いて目的関数のランドスケープを推定し,その知識を微分進化(differial Evolution)と呼ばれるEA技術に伝達する。
NeurIPS 2020のブラックボックス最適化課題の一環として、ハイパーパラメータ最適化問題に関するモデルを実証的に評価し、STEADEがバニラEAにもたらした改善を実証しました。
論文 参考訳(メタデータ) (2020-12-11T16:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。