論文の概要: Interesting Object, Curious Agent: Learning Task-Agnostic Exploration
- arxiv url: http://arxiv.org/abs/2111.13119v1
- Date: Thu, 25 Nov 2021 15:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 17:20:03.077041
- Title: Interesting Object, Curious Agent: Learning Task-Agnostic Exploration
- Title(参考訳): 興味ある対象, キュリオシティエージェント: タスク非依存探索の学習
- Authors: Simone Parisi, Victoria Dean, Deepak Pathak, Abhinav Gupta
- Abstract要約: 本稿では,タスク非依存探索の定式化と評価におけるパラダイム変化を提案する。
我々の定式化は効果的であることを示し、複数のトレーニングテスト環境ペアをまたいだ最も一貫した探索を提供する。
- 参考スコア(独自算出の注目度): 44.18450799034677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common approaches for task-agnostic exploration learn tabula-rasa --the agent
assumes isolated environments and no prior knowledge or experience. However, in
the real world, agents learn in many environments and always come with prior
experiences as they explore new ones. Exploration is a lifelong process. In
this paper, we propose a paradigm change in the formulation and evaluation of
task-agnostic exploration. In this setup, the agent first learns to explore
across many environments without any extrinsic goal in a task-agnostic manner.
Later on, the agent effectively transfers the learned exploration policy to
better explore new environments when solving tasks. In this context, we
evaluate several baseline exploration strategies and present a simple yet
effective approach to learning task-agnostic exploration policies. Our key idea
is that there are two components of exploration: (1) an agent-centric component
encouraging exploration of unseen parts of the environment based on an agent's
belief; (2) an environment-centric component encouraging exploration of
inherently interesting objects. We show that our formulation is effective and
provides the most consistent exploration across several training-testing
environment pairs. We also introduce benchmarks and metrics for evaluating
task-agnostic exploration strategies. The source code is available at
https://github.com/sparisi/cbet/.
- Abstract(参考訳): タスクに依存しない探索のための一般的なアプローチは、タブラ・ラサを学習する。
しかし、現実の世界では、エージェントは多くの環境で学び、新しい環境を探索するときに常に経験を積む。
探索は生涯のプロセスです。
本稿では,タスク非依存探索の定式化と評価におけるパラダイム変化を提案する。
この設定でエージェントは、タスクに依存しない方法で、外部の目標なしで多くの環境を探索することを学びます。
その後、エージェントは学習した探索ポリシーを効果的に転送し、タスクの解決時に新しい環境をよりよく探索する。
この文脈では,いくつかのベースライン探索戦略を評価し,タスクに依存しない探索政策の学習にシンプルかつ効果的なアプローチを提案する。
我々は,(1)エージェントの信念に基づく環境の見えない部分の探索を促進するエージェント中心のコンポーネント,(2)本質的に興味深い物体の探索を促進する環境中心のコンポーネントの2つを探索の鍵とする。
我々の定式化は効果的であり、複数のトレーニングテスト環境ペアをまたいだ最も一貫した探索を提供する。
また,タスクに依存しない探索戦略を評価するためのベンチマークやメトリクスも導入する。
ソースコードはhttps://github.com/sparisi/cbet/で入手できる。
関連論文リスト
- On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - Agent Spaces [0.0]
我々は探索を、エージェント自体を爆発的に修正する行為として定義する。
強化学習における多くの重要な構造は、エージェント空間の収束によって引き起こされるトポロジーの下でうまく振る舞うことを示す。
論文 参考訳(メタデータ) (2021-11-11T01:12:17Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Exploration in Deep Reinforcement Learning: A Comprehensive Survey [24.252352133705735]
Deep Reinforcement Learning (DRL)とDeep Multi-agent Reinforcement Learning (MARL)は、ゲームAI、自動運転車、ロボティクス、ファイナンスなど、幅広い領域で大きな成功を収めている。
DRLおよび深層MARLエージェントはサンプリング非効率であることが広く知られており、比較的単純なゲーム設定でも数百万のインタラクションが必要である。
本稿では,DRLおよび深部MARLにおける既存探査手法に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2021-09-14T13:16:33Z) - Deep Reinforcement Learning for Adaptive Exploration of Unknown
Environments [6.90777229452271]
私達はUAVのための1つのステップで調査および搾取間のトレードオフに適応的な調査のアプローチを開発します。
提案手法では, 環境マップを小型でトラクタブルな地図に分解するために, マップセグメンテーション手法を用いる。
その結果,本提案手法は,ランダムに生成された環境をナビゲートし,ベースラインと比較してAoIを短時間でカバーできることが示された。
論文 参考訳(メタデータ) (2021-05-04T16:29:44Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Semantic Curiosity for Active Visual Learning [45.75355448193764]
物体検出のための対話型学習を具体化する課題について検討する。
私たちのゴールは、エージェントがラベルを取得するデータを選択することで、オブジェクト検出器を学習することです。
論文 参考訳(メタデータ) (2020-06-16T17:59:24Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。