論文の概要: Information Content Exploration
- arxiv url: http://arxiv.org/abs/2310.06777v1
- Date: Tue, 10 Oct 2023 16:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:38:27.986722
- Title: Information Content Exploration
- Title(参考訳): 情報コンテンツ探索
- Authors: Jacob Chmura, Hasham Burhani, Xiao Qi Shi
- Abstract要約: 本稿では,探索行動の体系的定量化と状態カバレッジの促進を図った本質的な報奨を提案する。
情報理論的報酬は,様々なゲームにおいて,効率的な探索や性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 1.7034813545878589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse reward environments are known to be challenging for reinforcement
learning agents. In such environments, efficient and scalable exploration is
crucial. Exploration is a means by which an agent gains information about the
environment. We expand on this topic and propose a new intrinsic reward that
systemically quantifies exploratory behavior and promotes state coverage by
maximizing the information content of a trajectory taken by an agent. We
compare our method to alternative exploration based intrinsic reward
techniques, namely Curiosity Driven Learning and Random Network Distillation.
We show that our information theoretic reward induces efficient exploration and
outperforms in various games, including Montezuma Revenge, a known difficult
task for reinforcement learning. Finally, we propose an extension that
maximizes information content in a discretely compressed latent space which
boosts sample efficiency and generalizes to continuous state spaces.
- Abstract(参考訳): スパース報酬環境は強化学習エージェントにとって困難であることが知られている。
このような環境では、効率的でスケーラブルな探索が重要である。
探索とは、エージェントが環境に関する情報を取得する手段である。
本稿では,探索的行動の体系的定量化と,エージェントが取得する軌道の情報内容の最大化による状態被覆の促進を目的とした,新たな内在的報酬を提案する。
本手法を,好奇心駆動学習とランダムネットワーク蒸留という,内在的報酬技術に基づく代替探索手法と比較した。
情報理論的報酬は,モンテズマ・リベンジ(モンテズマ・リベンジ)など,多種多様なゲームにおいて,効率的な探索と成果をもたらすことを示す。
最後に, 離散圧縮された潜在空間における情報内容を最大化し, サンプル効率を高め, 連続状態空間に一般化する拡張を提案する。
関連論文リスト
- On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Curiosity-driven Exploration in Sparse-reward Multi-agent Reinforcement
Learning [0.6526824510982799]
本稿では,スパース・リワード型マルチエージェント強化学習における固有好奇性モジュールの限界について論じる。
固有好奇性モジュールとGo-Exploreフレームワークを組み合わせたI-Go-Exploreという手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T17:00:05Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - GAN-based Intrinsic Exploration For Sample Efficient Reinforcement
Learning [0.0]
本稿では,観測状態の分布を学習し,分布外である状態に対して高い確率で計算される固有報酬を送信する。
我々はスーパーマリオブラザーズでの報酬設定を無報酬で評価し、モンテズマの復讐設定を軽度に評価し、我々のアプローチが実際に効率的に探索可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T19:16:52Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Focus on Impact: Indoor Exploration with Intrinsic Motivation [45.97756658635314]
そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。
ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。
また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
論文 参考訳(メタデータ) (2021-09-14T18:00:07Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。