論文の概要: Deep Laplacian-based Options for Temporally-Extended Exploration
- arxiv url: http://arxiv.org/abs/2301.11181v1
- Date: Thu, 26 Jan 2023 15:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 13:16:18.777267
- Title: Deep Laplacian-based Options for Temporally-Extended Exploration
- Title(参考訳): 時間拡張探査のための深いラプラシアンに基づく選択肢
- Authors: Martin Klissarov and Marlos C. Machado
- Abstract要約: ラプラシア語に基づく選択肢を発見するための完全オンラインディープRLアルゴリズムを提案する。
ラプラシアンの固有関数を直接近似する最近の結果は、オプションベースの探索を真にスケールアップするためにどのように活用できるかを示す。
- 参考スコア(独自算出の注目度): 16.706495139945638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting exploratory actions that generate a rich stream of experience for
better learning is a fundamental challenge in reinforcement learning (RL). An
approach to tackle this problem consists in selecting actions according to
specific policies for an extended period of time, also known as options. A
recent line of work to derive such exploratory options builds upon the
eigenfunctions of the graph Laplacian. Importantly, until now these methods
have been mostly limited to tabular domains where (1) the graph Laplacian
matrix was either given or could be fully estimated, (2) performing
eigendecomposition on this matrix was computationally tractable, and (3) value
functions could be learned exactly. Additionally, these methods required a
separate option discovery phase. These assumptions are fundamentally not
scalable. In this paper we address these limitations and show how recent
results for directly approximating the eigenfunctions of the Laplacian can be
leveraged to truly scale up options-based exploration. To do so, we introduce a
fully online deep RL algorithm for discovering Laplacian-based options and
evaluate our approach on a variety of pixel-based tasks. We compare to several
state-of-the-art exploration methods and show that our approach is effective,
general, and especially promising in non-stationary settings.
- Abstract(参考訳): より良い学習のために豊富な経験の流れを生み出す探索行動を選択することは、強化学習(RL)における根本的な課題である。
この問題に取り組むアプローチは、特定のポリシーに従って、オプションとしても知られる長期にわたってアクションを選択することで成り立っている。
このような探索的オプションを導出するための最近の作業は、グラフラプラシアンの固有関数に基づいている。
重要なことに、これらの手法は、(1)グラフラプラシア行列が与えられたか、あるいは完全に推定できるような表付き領域に限られており、(2)この行列上で固有分解を行うことは、計算的に抽出可能であり、(3)値関数を正確に学習することができる。
さらに、これらのメソッドは別のオプション発見フェーズを必要とした。
これらの仮定は基本的にスケーラブルではない。
本稿では,ラプラシアンの固有関数を直接近似する最近の結果が,選択肢に基づく探索の真のスケールアップにどのように役立つかを示す。
そこで我々は,ラプラシアンベースの選択肢を発見するための完全オンラインディープRLアルゴリズムを導入し,様々なピクセルベースのタスクに対するアプローチを評価する。
我々は,いくつかの最先端探査手法と比較し,本手法が非定常環境で有効であり,特に有望であることを示す。
関連論文リスト
- Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Multi-Task Option Learning and Discovery for Stochastic Path Planning [27.384742641275228]
本稿では,長距離経路計画問題の幅広いクラスを確実かつ効率的に解決する問題に対処する。
提案手法では,提案したオプションを構成する高レベルパスだけでなく,ポリシによる有用なオプションも計算する。
このアプローチが実行可能性と解決可能性の強い保証をもたらすことを示す。
論文 参考訳(メタデータ) (2022-09-30T19:57:52Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z) - Decaying Clipping Range in Proximal Policy Optimization [0.0]
PPO(Proximal Policy Optimization)は、強化学習で最も広く使用されているアルゴリズムの1つです。
その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。
トレーニング全体を通して線形および指数関数的に減衰するクリッピング範囲のアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:08:05Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Fast Template Matching and Update for Video Object Tracking and
Segmentation [56.465510428878]
私たちが取り組もうとしている主な課題は、フレームの列にまたがるマルチインスタンスの半教師付きビデオオブジェクトセグメンテーションである。
課題は、結果を予測するためのマッチングメソッドの選択と、ターゲットテンプレートを更新するかどうかを決定することである。
本稿では,これら2つの決定を同時に行うために,強化学習を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T08:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。