論文の概要: Improving Intrinsic Exploration by Creating Stationary Objectives
- arxiv url: http://arxiv.org/abs/2310.18144v3
- Date: Mon, 4 Dec 2023 17:32:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 21:33:27.159330
- Title: Improving Intrinsic Exploration by Creating Stationary Objectives
- Title(参考訳): 定常目標作成による内在的探索の改善
- Authors: Roger Creus Castanyer, Joshua Romoff, Glen Berseth
- Abstract要約: 本稿では,SOFE(Stationary Objectives For Exploration)フレームワークについて紹介する。
また,SOFEは,カウントベースのボーナス,擬似カウント,状態エントロピーなど,いくつかの探索目標の性能を改善していることを示す。
スパースナビゲーション,画素ベースの観察,3次元ナビゲーション,手続き的に生成された環境など,難解な問題に対するSOFEの有効性を実証する。
- 参考スコア(独自算出の注目度): 11.358734746614797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration bonuses in reinforcement learning guide long-horizon exploration
by defining custom intrinsic objectives. Several exploration objectives like
count-based bonuses, pseudo-counts, and state-entropy maximization are
non-stationary and hence are difficult to optimize for the agent. While this
issue is generally known, it is usually omitted and solutions remain
under-explored. The key contribution of our work lies in transforming the
original non-stationary rewards into stationary rewards through an augmented
state representation. For this purpose, we introduce the Stationary Objectives
For Exploration (SOFE) framework. SOFE requires identifying sufficient
statistics for different exploration bonuses and finding an efficient encoding
of these statistics to use as input to a deep network. SOFE is based on
proposing state augmentations that expand the state space but hold the promise
of simplifying the optimization of the agent's objective. We show that SOFE
improves the performance of several exploration objectives, including
count-based bonuses, pseudo-counts, and state-entropy maximization. Moreover,
SOFE outperforms prior methods that attempt to stabilize the optimization of
intrinsic objectives. We demonstrate the efficacy of SOFE in hard-exploration
problems, including sparse-reward tasks, pixel-based observations, 3D
navigation, and procedurally generated environments.
- Abstract(参考訳): 特注的目標の定義による強化学習ガイドの長期探索における探索ボーナス
カウントベースのボーナス、擬似カウント、状態エントロピーの最大化といった探索目的は非定常であるため、エージェントの最適化は困難である。
この問題は一般に知られているが、通常は省略され、解決策は未検討のままである。
我々の研究の重要な貢献は、拡張状態表現を通じて、元の非定常報酬を定常報酬に変換することである。
そこで本研究では,SOFE(Stationary Objectives For Exploration)フレームワークについて紹介する。
SOFEは、異なる探索ボーナスに対する十分な統計を識別し、深層ネットワークへの入力として使用するためにこれらの統計の効率的な符号化を見つける必要がある。
SOFEは状態空間を拡大するが、エージェントの目的の最適化を単純化するという約束を守る状態拡張の提案に基づいている。
また,SOFEは,カウントベースのボーナス,擬似カウント,状態エントロピーの最大化など,いくつかの探索目標の性能を改善した。
さらに、SOFEは本質的な目的の最適化を安定化しようとする先行手法よりも優れている。
本研究では,sparse-rewardタスク,ピクセルベースの観測,3dナビゲーション,手続き的生成環境など,難解な探索問題に対するsofの有効性を示す。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Camouflaged Object Segmentation with Distraction Mining [23.77915054363188]
camouflaged object segmentation (cos) は、周囲に「完全に」同化している物体を識別することを目的としている。
本研究では,自然界における捕食の過程を模倣したバイオインスパイアされたPFNet(Placeing and Focus Network)を開発した。
当社のPFNetは、リアルタイム(72 FPS)で動作し、3つの挑戦的なデータセットで18の最先端のモデルを大幅に上回ります。
論文 参考訳(メタデータ) (2021-04-21T11:47:59Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework [28.430845498323745]
我々は、搾取から探索を分離する報酬のない強化学習フレームワークを検討する。
探索段階において、エージェントは、報酬のない環境と相互作用して探索ポリシーを学習する。
計画段階では、エージェントはデータセットに基づいて報酬関数の適切なポリシーを算出する。
論文 参考訳(メタデータ) (2020-06-11T05:05:31Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。