論文の概要: LESSON: Learning to Integrate Exploration Strategies for Reinforcement
Learning via an Option Framework
- arxiv url: http://arxiv.org/abs/2310.03342v1
- Date: Thu, 5 Oct 2023 06:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 17:13:47.260580
- Title: LESSON: Learning to Integrate Exploration Strategies for Reinforcement
Learning via an Option Framework
- Title(参考訳): LESSON: オプションフレームワークによる強化学習のための探索戦略の統合学習
- Authors: Woojun Kim, Jeonghye Kim, Youngchul Sung
- Abstract要約: 提案するフレームワークは,多様な探索戦略を統合することで,エージェントが時間とともに最も効果的な探索戦略を適応的に選択できるようにする。
提案手法の有効性は,MiniGridおよびAtari環境における様々な実験により実証された。
- 参考スコア(独自算出の注目度): 17.817494168256793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a unified framework for exploration in reinforcement learning
(RL) is proposed based on an option-critic model. The proposed framework learns
to integrate a set of diverse exploration strategies so that the agent can
adaptively select the most effective exploration strategy over time to realize
a relevant exploration-exploitation trade-off for each given task. The
effectiveness of the proposed exploration framework is demonstrated by various
experiments in the MiniGrid and Atari environments.
- Abstract(参考訳): 本稿では,選択肢批判モデルに基づく強化学習(RL)における探索のための統一的枠組みを提案する。
提案手法は多様な探索戦略を統合することを学び、エージェントが時間とともに最も効果的な探索戦略を適応的に選択し、各タスクに対して関連する探索・探索トレードオフを実現する。
提案手法の有効性は, minigrid および atari 環境における各種実験により実証された。
関連論文リスト
- Proximal Policy Optimization with Adaptive Exploration [0.0]
本稿では,強化学習の文脈における探索・探索トレードオフについて検討する。
提案する適応探索フレームワークは,最近のエージェントの性能に基づいて,トレーニング中の探索の規模を動的に調整する。
論文 参考訳(メタデータ) (2024-05-07T20:51:49Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM
Agents [52.82856458995437]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Iterative Option Discovery for Planning, by Planning [15.731719079249814]
オプションイテレーション(Option Iteration)と呼ばれるオプション発見に類似したアプローチを提案する。
任意の場所で検索結果にマッチするように訓練された単一の強力なポリシーを学ぶのではなく、オプションイテレーションは、各状態が遭遇するたびに、セット内の少なくとも1つのポリシーが、将来に向けて検索結果にマッチするように訓練された一連のオプションポリシーを学ぶ。
このようなローカルな強力なポリシーの集合を学習することで、より優れた選択肢がより良い検索結果に導かれるように、検索アルゴリズムをガイドすることができる。
論文 参考訳(メタデータ) (2023-10-02T19:03:30Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - What Matters in Reinforcement Learning for Tractography [12.940129711489005]
深部強化学習(RL)は,手作業による基準流路の整備を行なわずに,白質の構造を再構築するためのトラクトグラフィー法と訓練薬を学習するために提案されている。
RLアルゴリズムの選択,シード戦略,入力信号と報酬関数など,提案するフレームワークのさまざまなコンポーネントを徹底的に検討し,その影響について光を当てる。
本稿では,RLアルゴリズムの選択,エージェントへの入力,報酬関数などに関する一連の勧告を提案する。
論文 参考訳(メタデータ) (2023-05-15T22:01:48Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Learning to Explore by Reinforcement over High-Level Options [0.0]
エージェントに「見回し」と「フロンティアナビゲーション」という2つの行動選択肢を与える新しい手法を提案する。
各タイムステップにおいて、エージェントはポリシーに従ってオプションと対応するアクションを生成する。
提案手法が利用可能な2つの3次元環境データセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-11-02T04:21:34Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。