論文の概要: Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.00874v1
- Date: Wed, 2 Mar 2022 05:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 13:51:10.401759
- Title: Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning
- Title(参考訳): follow your nose: 強化学習における有向探索のための一般価値関数の使用
- Authors: Somjit Nath, Omkar Shelke, Durgesh Kalwar, Hardik Meisheri, Harshad
Khadilkar
- Abstract要約: 本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
- 参考スコア(独自算出の注目度): 5.40729975786985
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Exploration versus exploitation dilemma is a significant problem in
reinforcement learning (RL), particularly in complex environments with large
state space and sparse rewards. When optimizing for a particular goal, running
simple smaller tasks can often be a good way to learn additional information
about the environment. Exploration methods have been used to sample better
trajectories from the environment for improved performance while auxiliary
tasks have been incorporated generally where the reward is sparse. If there is
little reward signal available, the agent requires clever exploration
strategies to reach parts of the state space that contain relevant sub-goals.
However, that exploration needs to be balanced with the need for exploiting the
learned policy. This paper explores the idea of combining exploration with
auxiliary task learning using General Value Functions (GVFs) and a directed
exploration strategy. We provide a simple way to learn options (sequences of
actions) instead of having to handcraft them, and demonstrate the performance
advantage in three navigation tasks.
- Abstract(参考訳): 探索と搾取のジレンマは強化学習(RL)において重要な問題であり、特に大きな状態空間とまばらな報酬を持つ複雑な環境において重要である。
特定の目標を最適化する場合、単純な小さなタスクを実行することは、環境に関する追加情報を学ぶのに良い方法です。
探索法は、性能向上のために環境からのより良い軌道をサンプリングするために用いられ、補助的なタスクは一般に報酬が希薄な場所に組み込まれている。
報酬信号が少ない場合、エージェントは、関連するサブゴールを含む状態空間の一部に到達するために、巧妙な探索戦略を必要とする。
しかし、その探究は学習した政策を活用する必要性とバランスを取る必要がある。
本稿では,一般価値関数(gvfs)と有向探索戦略を用いて探索と補助タスク学習を組み合わせる方法を検討する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Interesting Object, Curious Agent: Learning Task-Agnostic Exploration [44.18450799034677]
本稿では,タスク非依存探索の定式化と評価におけるパラダイム変化を提案する。
我々の定式化は効果的であることを示し、複数のトレーニングテスト環境ペアをまたいだ最も一貫した探索を提供する。
論文 参考訳(メタデータ) (2021-11-25T15:17:32Z) - Discovering and Exploiting Sparse Rewards in a Learned Behavior Space [0.46736439782713946]
スパース報酬設定における最適ポリシーの学習は、学習エージェントが行動の質に対するフィードバックをほとんど、あるいは全く持っていないため困難である。
STAXは, 与えられた報酬を効率的に最適化しつつ, 行動空間を学習し, 探索するために設計されたアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-02T22:21:11Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Deep Reinforcement Learning for Adaptive Exploration of Unknown
Environments [6.90777229452271]
私達はUAVのための1つのステップで調査および搾取間のトレードオフに適応的な調査のアプローチを開発します。
提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。
その結果,本提案手法は,ランダムに生成された環境をナビゲートし,ベースラインと比較してAoIを短時間でカバーできることが示された。
論文 参考訳(メタデータ) (2021-05-04T16:29:44Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Decoupling Exploration and Exploitation for Meta-Reinforcement Learning
without Sacrifices [132.49849640628727]
メタ強化学習(Meta-RL)は、関連するタスクに対する事前の経験を活用することで、新しいタスクを迅速に学習できるエージェントを構築する。
原則として、タスクパフォーマンスを最大化することで、最適な探索と搾取をエンドツーエンドで学べる。
DREAMは、最適な探索を犠牲にすることなく、エンドツーエンドのトレーニングにおいて局所的な最適化を避ける。
論文 参考訳(メタデータ) (2020-08-06T17:57:36Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。