論文の概要: LESSON: Learning to Integrate Exploration Strategies for Reinforcement Learning via an Option Framework
- arxiv url: http://arxiv.org/abs/2310.03342v2
- Date: Sun, 8 Sep 2024 11:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 04:03:29.664471
- Title: LESSON: Learning to Integrate Exploration Strategies for Reinforcement Learning via an Option Framework
- Title(参考訳): LESSON: オプションフレームワークによる強化学習のための探索戦略の統合学習
- Authors: Woojun Kim, Jeonghye Kim, Youngchul Sung,
- Abstract要約: 提案するフレームワークは,多様な探索戦略を統合することで,エージェントが時間とともに最も効果的な探索戦略を適応的に選択できるようにする。
提案手法の有効性は,MiniGridおよびAtari環境における様々な実験により実証された。
- 参考スコア(独自算出の注目度): 15.853276603484959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a unified framework for exploration in reinforcement learning (RL) is proposed based on an option-critic model. The proposed framework learns to integrate a set of diverse exploration strategies so that the agent can adaptively select the most effective exploration strategy over time to realize a relevant exploration-exploitation trade-off for each given task. The effectiveness of the proposed exploration framework is demonstrated by various experiments in the MiniGrid and Atari environments.
- Abstract(参考訳): 本稿では,選択肢批判モデルに基づく強化学習(RL)における探索のための統一的枠組みを提案する。
提案手法は多様な探索戦略を統合することを学び、エージェントが時間とともに最も効果的な探索戦略を適応的に選択し、各タスクに対して関連する探索・探索トレードオフを実現する。
提案手法の有効性は,MiniGridおよびAtari環境における様々な実験により実証された。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Proximal Policy Optimization with Adaptive Exploration [0.0]
本稿では,強化学習の文脈における探索・探索トレードオフについて検討する。
提案する適応探索フレームワークは,最近のエージェントの性能に基づいて,トレーニング中の探索の規模を動的に調整する。
論文 参考訳(メタデータ) (2024-05-07T20:51:49Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - What Matters in Reinforcement Learning for Tractography [12.940129711489005]
深部強化学習(RL)は,手作業による基準流路の整備を行なわずに,白質の構造を再構築するためのトラクトグラフィー法と訓練薬を学習するために提案されている。
RLアルゴリズムの選択,シード戦略,入力信号と報酬関数など,提案するフレームワークのさまざまなコンポーネントを徹底的に検討し,その影響について光を当てる。
本稿では,RLアルゴリズムの選択,エージェントへの入力,報酬関数などに関する一連の勧告を提案する。
論文 参考訳(メタデータ) (2023-05-15T22:01:48Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。