Fugu-MT 論文翻訳(概要): Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization

論文の概要: Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization

arxiv url: http://arxiv.org/abs/2105.12991v1
Date: Thu, 27 May 2021 08:24:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-28 16:16:38.139298
Title: Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization
Title（参考訳）: Forward Kullback-Leibler Divergence Optimization による最適強化学習
Authors: Taisuke Kobayashi
Abstract要約: 本稿では、強化学習(RL)の新たな解釈を、KL(Kulback-Leibler)の分散最適化として扱う。前方KL分散を用いた新しい最適化手法を導出する。現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。
参考スコア（独自算出の注目度）: 1.7970523486905976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses a new interpretation of reinforcement learning (RL) as reverse Kullback-Leibler (KL) divergence optimization, and derives a new optimization method using forward KL divergence. Although RL originally aims to maximize return indirectly through optimization of policy, the recent work by Levine has proposed a different derivation process with explicit consideration of optimality as stochastic variable. This paper follows this concept and formulates the traditional learning laws for both value function and policy as the optimization problems with reverse KL divergence including optimality. Focusing on the asymmetry of KL divergence, the new optimization problems with forward KL divergence are derived. Remarkably, such new optimization problems can be regarded as optimistic RL. That optimism is intuitively specified by a hyperparameter converted from an uncertainty parameter. In addition, it can be enhanced when it is integrated with prioritized experience replay and eligibility traces, both of which accelerate learning. The effects of this expected optimism was investigated through learning tendencies on numerical simulations using Pybullet. As a result, moderate optimism accelerated learning and yielded higher rewards. In a realistic robotic simulation, the proposed method with the moderate optimism outperformed one of the state-of-the-art RL method.
Abstract（参考訳）: 本稿では,強化学習(RL)を逆Kullback-Leibler(KL)分散最適化と解釈し,前方KL分散を用いた新しい最適化手法を提案する。 RL は当初、ポリシーの最適化を通じて間接的に戻りを最大化することを目的としていたが、Levin の最近の研究は、確率変数としての最適性を明確に考慮した異なる導出プロセスを提案している。本稿では,この概念に従い,価値関数と政策の両方に対する従来の学習則を,最適性を含む逆kl発散を伴う最適化問題として定式化する。 KL分散の非対称性に着目して、前方KL分散を伴う新しい最適化問題を導出する。注目すべきことに、このような新しい最適化問題は楽観的なRLと見なすことができる。その楽観性は不確実性パラメータから変換されたハイパーパラメータによって直感的に特定される。さらに、優先された体験リプレイや、学習を加速する適性トレースと統合された場合には、強化することができる。この最適化がPybulletを用いた数値シミュレーションに与える影響を学習傾向から検討した。その結果、適度な楽観主義は学習を加速し、より高い報酬を得た。現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Advancing CMA-ES with Learning-Based Cooperative Coevolution for Scalable Optimization [12.899626317088885]
本稿では,先駆的な学習に基づく協調的共進化フレームワークであるLCCを紹介する。 LCCは最適化プロセス中に動的に分解戦略をスケジュールする。最適化の効率性とリソース消費の観点からは、最先端のベースラインに対して、ある種のアドバンテージを提供する。
論文参考訳（メタデータ） (2025-04-24T14:09:22Z)
A Novel Unified Parametric Assumption for Nonconvex Optimization [53.943470475510196]
非最適化は機械学習の中心であるが、一般の非凸性は弱い収束を保証するため、他方に比べて悲観的すぎる。非凸アルゴリズムに新しい統一仮定を導入する。
論文参考訳（メタデータ） (2025-02-17T21:25:31Z)
Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文参考訳（メタデータ） (2025-01-07T03:14:39Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T18:51:01Z)
Combining Automated Optimisation of Hyperparameters and Reward Shape [7.407166175374958]
本稿では,ハイパーパラメータと報酬関数を組み合わせた最適化手法を提案する。近似ポリシー最適化とソフト・アクター・クリティカルを用いた広範囲な実験を行った。以上の結果から,統合最適化は環境の半分のベースライン性能よりも有意に向上し,他の環境との競争性能も向上することが示された。
論文参考訳（メタデータ） (2024-06-26T12:23:54Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
End-to-End Learning for Fair Multiobjective Optimization Under Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文参考訳（メタデータ） (2024-02-12T16:33:35Z)
Analyzing and Enhancing the Backward-Pass Convergence of Unrolled Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。 Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文参考訳（メタデータ） (2023-12-28T23:15:18Z)
Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文参考訳（メタデータ） (2023-05-09T23:51:24Z)
Accelerating the Evolutionary Algorithms by Gaussian Process Regression with $\epsilon$-greedy acquisition function [2.7716102039510564]
本稿では,最適化の収束を早めるために,エリート個人を推定する新しい手法を提案する。我々の提案には、エリート個人を推定し、最適化の収束を加速する幅広い見通しがある。
論文参考訳（メタデータ） (2022-10-13T07:56:47Z)
Teaching Networks to Solve Optimization Problems [13.803078209630444]
反復解法をトレーニング可能なパラメトリック集合関数に置き換えることを提案する。このようなパラメトリックな(集合)関数を学習することで、様々な古典的最適化問題を解くことができることを示す。
論文参考訳（メタデータ） (2022-02-08T19:13:13Z)
Better call Surrogates: A hybrid Evolutionary Algorithm for Hyperparameter optimization [18.359749929678635]
機械学習(ML)モデルのハイパーパラメータ最適化のための代理支援進化アルゴリズム(EA)を提案する。提案したSTEADEモデルは,まずRadialBasis関数を用いて目的関数のランドスケープを推定し,その知識を微分進化(differial Evolution)と呼ばれるEA技術に伝達する。 NeurIPS 2020のブラックボックス最適化課題の一環として、ハイパーパラメータ最適化問題に関するモデルを実証的に評価し、STEADEがバニラEAにもたらした改善を実証しました。
論文参考訳（メタデータ） (2020-12-11T16:19:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。