論文の概要: Improving Intrinsic Exploration by Creating Stationary Objectives
- arxiv url: http://arxiv.org/abs/2310.18144v2
- Date: Fri, 3 Nov 2023 00:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:36:59.417131
- Title: Improving Intrinsic Exploration by Creating Stationary Objectives
- Title(参考訳): 定常目標作成による内在的探索の改善
- Authors: Roger Creus Castanyer, Joshua Romoff, Glen Berseth
- Abstract要約: 本稿では,カウントベース法から導かれる固有報酬関数が非定常であることを示す。
私たちの研究の重要な貢献は、拡張された状態表現を通じて、元の非定常的な報酬を定常的な報酬に変換することである。
実験の結果,SOFEは探索問題に挑戦するエージェントの性能を向上させることがわかった。
- 参考スコア(独自算出の注目度): 11.358734746614797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration bonuses in reinforcement learning guide long-horizon exploration
by defining custom intrinsic objectives. Count-based methods use the frequency
of state visits to derive an exploration bonus. In this paper, we identify that
any intrinsic reward function derived from count-based methods is
non-stationary and hence induces a difficult objective to optimize for the
agent. The key contribution of our work lies in transforming the original
non-stationary rewards into stationary rewards through an augmented state
representation. For this purpose, we introduce the Stationary Objectives For
Exploration (SOFE) framework. SOFE requires identifying sufficient statistics
for different exploration bonuses and finding an efficient encoding of these
statistics to use as input to a deep network. SOFE is based on proposing state
augmentations that expand the state space but hold the promise of simplifying
the optimization of the agent's objective. Our experiments show that SOFE
improves the agents' performance in challenging exploration problems, including
sparse-reward tasks, pixel-based observations, 3D navigation, and procedurally
generated environments.
- Abstract(参考訳): 特注的目標の定義による強化学習ガイドの長期探索における探索ボーナス
カウントベースの方法は、国家訪問の頻度を使って探索ボーナスを導出する。
本稿では,カウントベース法から導出される固有報酬関数が非定常であることから,エージェントの最適化が困難であることを示す。
我々の研究の重要な貢献は、拡張状態表現を通じて、元の非定常報酬を定常報酬に変換することである。
そこで本研究では,SOFE(Stationary Objectives For Exploration)フレームワークについて紹介する。
SOFEは、異なる探索ボーナスに対する十分な統計を識別し、深層ネットワークへの入力として使用するためにこれらの統計の効率的な符号化を見つける必要がある。
SOFEは状態空間を拡大するが、エージェントの目的の最適化を単純化するという約束を守る状態拡張の提案に基づいている。
実験の結果, sofeは, スパースリワードタスク, ピクセルベースの観測, 3次元ナビゲーション, 手続き的生成環境など, 探索課題におけるエージェントの性能が向上した。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Camouflaged Object Segmentation with Distraction Mining [23.77915054363188]
camouflaged object segmentation (cos) は、周囲に「完全に」同化している物体を識別することを目的としている。
本研究では,自然界における捕食の過程を模倣したバイオインスパイアされたPFNet(Placeing and Focus Network)を開発した。
当社のPFNetは、リアルタイム(72 FPS)で動作し、3つの挑戦的なデータセットで18の最先端のモデルを大幅に上回ります。
論文 参考訳(メタデータ) (2021-04-21T11:47:59Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Exploration by Maximizing R\'enyi Entropy for Reward-Free RL Framework [28.430845498323745]
我々は、搾取から探索を分離する報酬のない強化学習フレームワークを検討する。
探索段階において、エージェントは、報酬のない環境と相互作用して探索ポリシーを学習する。
計画段階では、エージェントはデータセットに基づいて報酬関数の適切なポリシーを算出する。
論文 参考訳(メタデータ) (2020-06-11T05:05:31Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。