論文の概要: Curious Hierarchical Actor-Critic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.03420v3
- Date: Mon, 17 Aug 2020 08:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:08:16.209417
- Title: Curious Hierarchical Actor-Critic Reinforcement Learning
- Title(参考訳): 奇抜な階層的アクター・クリティカル強化学習
- Authors: Frank R\"oder, Manfred Eppe, Phuong D.H. Nguyen and Stefan Wermter
- Abstract要約: 階層的抽象化と好奇心による探索は、現在の強化学習アプローチにおける2つの共通のパラダイムである。
階層的強化学習と好奇心を組み合わせた手法を開発した。
好奇心が学習性能と成功率を2倍以上にできるいくつかの連続空間環境を実証する。
- 参考スコア(独自算出の注目度): 13.225264876433528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical abstraction and curiosity-driven exploration are two common
paradigms in current reinforcement learning approaches to break down difficult
problems into a sequence of simpler ones and to overcome reward sparsity.
However, there is a lack of approaches that combine these paradigms, and it is
currently unknown whether curiosity also helps to perform the hierarchical
abstraction. As a novelty and scientific contribution, we tackle this issue and
develop a method that combines hierarchical reinforcement learning with
curiosity. Herein, we extend a contemporary hierarchical actor-critic approach
with a forward model to develop a hierarchical notion of curiosity. We
demonstrate in several continuous-space environments that curiosity can more
than double the learning performance and success rates for most of the
investigated benchmarking problems. We also provide our source code and a
supplementary video.
- Abstract(参考訳): 階層的抽象化と好奇心を駆使した探索は、現在の強化学習アプローチにおいて、難しい問題を単純な問題列に分割し、報酬の幅を克服する2つの共通のパラダイムである。
しかし、これらのパラダイムを結合するアプローチが欠如しており、キュリオシティが階層的な抽象化を実行するのに役立つかどうかは現在不明である。
新しくて科学的な貢献として,この問題に取り組み,階層的強化学習と好奇心を組み合わせる手法を開発した。
ここでは,現代的階層的アクター批判的アプローチをフォワードモデルで拡張し,好奇心の階層的概念を開発する。
我々は、好奇心が学習性能と成功率を2倍以上にできるいくつかの連続空間環境において、調査されたベンチマーク問題の大部分について示す。
ソースコードと補足ビデオも提供しています。
関連論文リスト
- A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文 参考訳(メタデータ) (2024-07-20T03:53:32Z) - Cyclophobic Reinforcement Learning [2.2940141855172036]
粗末な報酬のある環境では、探索のための優れた誘導バイアスを見つけることがエージェントの成功に不可欠である。
本稿では,サイクロフォビックな新たな固有報酬を提案する。すなわち,新規性に報いるのではなく,サイクルの回避によって冗長性を罰する。
サイクロフォビックな固有報酬を階層的な表現の列で増大させることで、MiniGridおよびMiniHack環境において優れた結果を得ることができる。
論文 参考訳(メタデータ) (2023-08-30T09:38:44Z) - A Comprehensive Survey of Forgetting in Deep Learning Beyond Continual Learning [58.107474025048866]
蓄積とは、以前に獲得した知識の喪失または劣化を指す。
フォッテッティングは、深層学習における様々な研究領域でよく見られる現象である。
論文 参考訳(メタデータ) (2023-07-16T16:27:58Z) - Curiosity-driven Exploration in Sparse-reward Multi-agent Reinforcement
Learning [0.6526824510982799]
本稿では,スパース・リワード型マルチエージェント強化学習における固有好奇性モジュールの限界について論じる。
固有好奇性モジュールとGo-Exploreフレームワークを組み合わせたI-Go-Exploreという手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T17:00:05Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Exploration in Deep Reinforcement Learning: A Survey [4.066140143829243]
スパース報酬問題の解決には探索技術が重要である。
スパース報酬問題では報酬は稀であり、エージェントがランダムに振る舞うことで報酬を見つけられないことを意味する。
本総説では,既存探査手法の概要について概説する。
論文 参考訳(メタデータ) (2022-05-02T12:03:44Z) - On Credit Assignment in Hierarchical Reinforcement Learning [0.0]
階層強化学習(HRL)は、長年にわたって強化学習の推進を約束してきた。
例えば、1ステップの階層的なバックアップは、従来のマルチステップのバックアップとして、時間の経過とともに$n$のスキップ接続が可能であることを示す。
我々は新しい階層型アルゴリズム Hier$Q_k(lambda)$ を開発し、これは階層型クレジット代入だけでエージェントのパフォーマンスを向上できることを示す。
論文 参考訳(メタデータ) (2022-03-07T11:13:09Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Towards Open World Object Detection [68.79678648726416]
ORE: Open World Object Detectorは、対照的なクラスタリングとエネルギーベースの未知の識別に基づいている。
未知のインスタンスの識別と特徴付けは、インクリメンタルなオブジェクト検出設定における混乱を減らすのに役立ちます。
論文 参考訳(メタデータ) (2021-03-03T18:58:18Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Obstacle Tower Without Human Demonstrations: How Far a Deep Feed-Forward
Network Goes with Reinforcement Learning [1.699937048243873]
オブスタークルタワーチャレンジ(Obstacle Tower Challenge)は、手続き的に生成されたレベルのチェーンをマスターするタスクである。
競争力のある(第7位)アプローチを提示するが,Deep Reinforcement Learningによって完全にゼロから開始する。
論文 参考訳(メタデータ) (2020-04-01T16:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。