論文の概要: Information Content Exploration
- arxiv url: http://arxiv.org/abs/2310.06777v1
- Date: Tue, 10 Oct 2023 16:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:38:27.986722
- Title: Information Content Exploration
- Title(参考訳): 情報コンテンツ探索
- Authors: Jacob Chmura, Hasham Burhani, Xiao Qi Shi
- Abstract要約: 本稿では,探索行動の体系的定量化と状態カバレッジの促進を図った本質的な報奨を提案する。
情報理論的報酬は,様々なゲームにおいて,効率的な探索や性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 1.7034813545878589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse reward environments are known to be challenging for reinforcement
learning agents. In such environments, efficient and scalable exploration is
crucial. Exploration is a means by which an agent gains information about the
environment. We expand on this topic and propose a new intrinsic reward that
systemically quantifies exploratory behavior and promotes state coverage by
maximizing the information content of a trajectory taken by an agent. We
compare our method to alternative exploration based intrinsic reward
techniques, namely Curiosity Driven Learning and Random Network Distillation.
We show that our information theoretic reward induces efficient exploration and
outperforms in various games, including Montezuma Revenge, a known difficult
task for reinforcement learning. Finally, we propose an extension that
maximizes information content in a discretely compressed latent space which
boosts sample efficiency and generalizes to continuous state spaces.
- Abstract(参考訳): スパース報酬環境は強化学習エージェントにとって困難であることが知られている。
このような環境では、効率的でスケーラブルな探索が重要である。
探索とは、エージェントが環境に関する情報を取得する手段である。
本稿では,探索的行動の体系的定量化と,エージェントが取得する軌道の情報内容の最大化による状態被覆の促進を目的とした,新たな内在的報酬を提案する。
本手法を,好奇心駆動学習とランダムネットワーク蒸留という,内在的報酬技術に基づく代替探索手法と比較した。
情報理論的報酬は,モンテズマ・リベンジ(モンテズマ・リベンジ)など,多種多様なゲームにおいて,効率的な探索と成果をもたらすことを示す。
最後に, 離散圧縮された潜在空間における情報内容を最大化し, サンプル効率を高め, 連続状態空間に一般化する拡張を提案する。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Exploration Unbound [26.27811928866858]
シーケンシャルな意思決定エージェントは、新しい知識を得るための探索と、現在の知識を活用して即時報酬を最大限にするためにバランスをとる。
このような複雑な環境の単純で簡潔な例を示します。
この環境では、報酬は非有界であり、エージェントは常に、より多くのことを学ぶことで報酬が蓄積される率を高めることができる。
論文 参考訳(メタデータ) (2024-07-16T21:14:43Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - GAN-based Intrinsic Exploration For Sample Efficient Reinforcement
Learning [0.0]
本稿では,観測状態の分布を学習し,分布外である状態に対して高い確率で計算される固有報酬を送信する。
我々はスーパーマリオブラザーズでの報酬設定を無報酬で評価し、モンテズマの復讐設定を軽度に評価し、我々のアプローチが実際に効率的に探索可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T19:16:52Z) - Follow your Nose: Using General Value Functions for Directed Exploration
in Reinforcement Learning [5.40729975786985]
本稿では,汎用価値関数(GVF)と有向探索戦略を用いて,探索と補助的タスク学習を組み合わせることを提案する。
3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。
論文 参考訳(メタデータ) (2022-03-02T05:14:11Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。