論文の概要: An Autonomous Non-monolithic Agent with Multi-mode Exploration based on
Options Framework
- arxiv url: http://arxiv.org/abs/2305.01322v1
- Date: Tue, 2 May 2023 11:08:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:48:01.250561
- Title: An Autonomous Non-monolithic Agent with Multi-mode Exploration based on
Options Framework
- Title(参考訳): オプションフレームワークに基づくマルチモード探索による自律的非モノリシックエージェント
- Authors: JaeYoon Kim, Junyu Xuan, Christy Liang, Farookh Hussain
- Abstract要約: 非モノリシックな探査研究は、人間と動物のモードスイッチング探索行動を調べるために現れた。
私たちの研究の最終的な目的は、エージェントがいつ自律的に探索するか、活用するかを判断できるようにすることです。
- 参考スコア(独自算出の注目度): 4.66831886752751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most exploration research on reinforcement learning (RL) has paid attention
to `the way of exploration', which is `how to explore'. The other exploration
research, `when to explore', has not been the main focus of RL exploration
research. \textcolor{black}{The issue of `when' of a monolithic exploration in
the usual RL exploration behaviour binds an exploratory action to an
exploitational action of an agent. Recently, a non-monolithic exploration
research has emerged to examine the mode-switching exploration behaviour of
humans and animals.} The ultimate purpose of our research is to enable an agent
to decide when to explore or exploit autonomously. We describe the initial
research of an autonomous multi-mode exploration of non-monolithic behaviour in
an options framework. The higher performance of our method is shown against the
existing non-monolithic exploration method through comparative experimental
results.
- Abstract(参考訳): 強化学習(RL)に関するほとんどの調査研究は、「探索の方法」である「探索の方法」に注意を払っている。
その他の探査研究である'when to exploration'は、rl探査研究の主要な焦点とはなっていない。
通常のRL探索動作におけるモノリシックな探索の‘when’という問題は、エージェントのエクスプロレーションアクションに探索アクションを結び付ける。
近年、人間や動物のモード切り替えによる探索行動を調べる非石器探査研究が出現している。
研究の最終的な目的は、エージェントがいつ自律的に探索するか、活用するかを判断できるようにすることです。
オプションフレームワークにおける非モノリシックな振る舞いの自律的マルチモード探索の初期研究について述べる。
本手法は, 既往の非モノリシック探査法に対して, 比較実験により高い性能を示す。
関連論文リスト
- First-Explore, then Exploit: Meta-Learning to Solve Hard Exploration-Exploitation Trade-Offs [2.0690113422225997]
First-Exploreは、広範囲のドメインで人間のような探索が可能なメタRLアルゴリズムを開発するための重要なステップである。
我々の方法であるFirst-Exploreは、2つのポリシーを学習することで制限を克服する。
論文 参考訳(メタデータ) (2023-07-05T13:20:21Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - When to Go, and When to Explore: The Benefit of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
目標達成後の探査を「後探査」と呼ぶ。
我々は,いつまで,いつまで,いつまで,いつまで,いつまでかかるかを適応的に決定する新しい手法を導入する。
論文 参考訳(メタデータ) (2022-03-29T16:50:12Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Exploration in Deep Reinforcement Learning: A Comprehensive Survey [24.252352133705735]
Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。
本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2021-09-14T13:16:33Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。