論文の概要: A Unifying View of Optimism in Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.01891v1
- Date: Fri, 3 Jul 2020 18:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 04:44:26.533174
- Title: A Unifying View of Optimism in Episodic Reinforcement Learning
- Title(参考訳): エピソード強化学習における最適化の統一的視点
- Authors: Gergely Neu and Ciara Pike-Burke
- Abstract要約: 本稿では,楽観的な強化学習アルゴリズムの設計,解析,実装のためのフレームワークを提供する。
楽観的なMDPを構成する任意のモデル最適化アルゴリズムは、値最適化動的プログラミングアルゴリズムとして等価な表現を持つ。
- 参考スコア(独自算出の注目度): 18.73198634652064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The principle of optimism in the face of uncertainty underpins many
theoretically successful reinforcement learning algorithms. In this paper we
provide a general framework for designing, analyzing and implementing such
algorithms in the episodic reinforcement learning problem. This framework is
built upon Lagrangian duality, and demonstrates that every model-optimistic
algorithm that constructs an optimistic MDP has an equivalent representation as
a value-optimistic dynamic programming algorithm. Typically, it was thought
that these two classes of algorithms were distinct, with model-optimistic
algorithms benefiting from a cleaner probabilistic analysis while
value-optimistic algorithms are easier to implement and thus more practical.
With the framework developed in this paper, we show that it is possible to get
the best of both worlds by providing a class of algorithms which have a
computationally efficient dynamic-programming implementation and also a simple
probabilistic analysis. Besides being able to capture many existing algorithms
in the tabular setting, our framework can also address largescale problems
under realizable function approximation, where it enables a simple model-based
analysis of some recently proposed methods.
- Abstract(参考訳): 不確実性に直面した楽観主義の原理は、理論上成功した強化学習アルゴリズムを支えている。
本稿では,そのようなアルゴリズムをエピソディクス強化学習問題において設計,解析,実装するための汎用フレームワークを提案する。
このフレームワークはラグランジュ双対性に基づいて構築されており、楽観的mdpを構成する全てのモデル最適化アルゴリズムは、値最適化動的プログラミングアルゴリズムとして等価表現を持つ。
モデル最適化アルゴリズムはよりクリーンな確率論的解析の恩恵を受け、価値最適化アルゴリズムはより実装しやすく、より実用的なものとなる。
本稿では,計算効率のよい動的プログラミング実装と単純な確率論的解析を備えたアルゴリズムのクラスを提供することで,両世界の長所を得られることを示す。
近年提案されている手法のモデルベース解析を可能にするため,本フレームワークでは,多数の既存アルゴリズムを表形式でキャプチャできるだけでなく,実現可能な関数近似の下での大規模問題にも対処できる。
関連論文リスト
- Explainable Benchmarking for Iterative Optimization Heuristics [0.8192907805418583]
我々は、様々な最適化アルゴリズムの性能を分析し、理解するためのIOH-Xplainerソフトウェアフレームワークを紹介する。
さまざまなアルゴリズムコンポーネントと構成の影響を調査し、さまざまなシナリオにおけるパフォーマンスに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-01-31T14:02:26Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Dual Algorithmic Reasoning [9.701208207491879]
本稿では,基礎となるアルゴリズム問題の双対性を利用してアルゴリズムを学習することを提案する。
アルゴリズム学習における最適化問題の2つの定義を同時に学習することで、より良い学習が可能になることを実証する。
次に、難易度の高い脳血管分類タスクにデプロイすることで、二元アルゴリズム推論の現実的な実用性を検証する。
論文 参考訳(メタデータ) (2023-02-09T08:46:23Z) - B\'ezier Flow: a Surface-wise Gradient Descent Method for
Multi-objective Optimization [12.487037582320804]
確率近似学習(PAC)における最適化アルゴリズムの安定性を向上する。
勾配勾配勾配に基づく単目的最適化アルゴリズムから導かれる多目的最適化アルゴリズムはPAC安定であることを示す。
論文 参考訳(メタデータ) (2022-05-23T07:47:58Z) - Neural Combinatorial Optimization: a New Player in the Field [69.23334811890919]
本稿では,ニューラルネットワークに基づくアルゴリズムの古典的最適化フレームワークへの導入に関する批判的分析を行う。
性能, 転送可能性, 計算コスト, 大規模インスタンスなど, これらのアルゴリズムの基本的側面を分析するために, 総合的研究を行った。
論文 参考訳(メタデータ) (2022-05-03T07:54:56Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。