論文の概要: HAC Explore: Accelerating Exploration with Hierarchical Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2108.05872v1
- Date: Thu, 12 Aug 2021 17:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:38:33.300248
- Title: HAC Explore: Accelerating Exploration with Hierarchical Reinforcement
Learning
- Title(参考訳): HAC Explore:階層的強化学習による探索の高速化
- Authors: Willie McClinton, Andrew Levy, George Konidaris
- Abstract要約: HAC Explore (HACx) は、ランダムネットワーク蒸留法(RND)を階層的アプローチである階層的アクター・クリティカル法(HAC)に組み合わせた新しい手法である。
HACxは1000以上のアクションを必要とするスパース報酬の連続制御タスクを解決する最初のRL手法である。
- 参考スコア(独自算出の注目度): 8.889563735540696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse rewards and long time horizons remain challenging for reinforcement
learning algorithms. Exploration bonuses can help in sparse reward settings by
encouraging agents to explore the state space, while hierarchical approaches
can assist with long-horizon tasks by decomposing lengthy tasks into shorter
subtasks. We propose HAC Explore (HACx), a new method that combines these
approaches by integrating the exploration bonus method Random Network
Distillation (RND) into the hierarchical approach Hierarchical Actor-Critic
(HAC). HACx outperforms either component method on its own, as well as an
existing approach to combining hierarchy and exploration, in a set of difficult
simulated robotics tasks. HACx is the first RL method to solve a sparse reward,
continuous-control task that requires over 1,000 actions.
- Abstract(参考訳): 厳格な報酬と長期の地平線は、強化学習アルゴリズムでは難しいままだ。
探索ボーナスは、エージェントに状態空間を探索するよう促すことによって、報酬設定を疎くするのに役立つ一方、階層的アプローチは、長いタスクを短いサブタスクに分解することで、長いホリゾンタスクを補助する。
HAC Explore(HACx)は,探索ボーナス法(RND)を階層的アプローチである階層的アクター・クリティカル(HAC)に統合することで,これらの手法を組み合わせる新しい手法である。
HACxは、階層構造と探索を組み合わせた既存のアプローチと同様に、独自のコンポーネントメソッドよりも優れています。
HACxは1000以上のアクションを必要とするスパース報酬連続制御タスクを解決する最初のRL手法である。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback
and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Strangeness-driven Exploration in Multi-Agent Reinforcement Learning [0.0]
我々は,任意の集中型トレーニングと分散実行(CTDE)に基づくMARLアルゴリズムに容易に組み込むことのできる,奇異性のある新たな探索手法を提案する。
探索ボーナスは奇異性から得られ,提案手法はMARLタスクでよく見られる遷移の影響を受けない。
論文 参考訳(メタデータ) (2022-12-27T11:08:49Z) - Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。
A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。
A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文 参考訳(メタデータ) (2022-07-19T12:56:41Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。