論文の概要: Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.03186v1
- Date: Mon, 5 Jun 2023 18:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 18:51:44.191471
- Title: Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement
Learning
- Title(参考訳): 強化学習のための疑似数推定のためのコインの反転
- Authors: Sam Lobel and Akhil Bagaria and George Konidaris
- Abstract要約: 我々は,Rademacher分布の標本を平均化することにより,カウントを導出できることを示す。
提案手法は, 従来よりも地中訪問回数の低減に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 20.0888026410406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new method for count-based exploration in high-dimensional state
spaces. Unlike previous work which relies on density models, we show that
counts can be derived by averaging samples from the Rademacher distribution (or
coin flips). This insight is used to set up a simple supervised learning
objective which, when optimized, yields a state's visitation count. We show
that our method is significantly more effective at deducing ground-truth
visitation counts than previous work; when used as an exploration bonus for a
model-free reinforcement learning algorithm, it outperforms existing approaches
on most of 9 challenging exploration tasks, including the Atari game
Montezuma's Revenge.
- Abstract(参考訳): 本研究では,高次元状態空間におけるカウントベース探索法を提案する。
密度モデルに依存する以前の研究とは異なり、カウントはラデマッハ分布(またはコインフリップ)のサンプルの平均化によって導き出すことができる。
この洞察は、単純な教師付き学習目標を設定するために使用され、最適化されると、状態の訪問回数が生成される。
モデルレス強化学習アルゴリズムの探索ボーナスとして用いる場合,アタリゲーム「モンテズマ・リベンジ」を含む9つの探索課題において,既存のアプローチよりも優れていることを示す。
関連論文リスト
- Maximum State Entropy Exploration using Predecessor and Successor
Representations [17.732962106114478]
動物は、食物の配置などの重要なタスクにおいて、動物を探索する能力が発達している。
本稿では,過去の叙述的経験を条件に,効率的な探索政策を学習する手法である$etapsi$-Learningを提案する。
論文 参考訳(メタデータ) (2023-06-26T16:08:26Z) - Can Direct Latent Model Learning Solve Linear Quadratic Gaussian
Control? [75.14973944905216]
本研究では,高次元観測から状態表現を学習する課題について検討する。
我々は,ある潜在状態空間における動的モデルを,計画に直接関連する量を予測することによって学習する,直接潜在モデル学習手法を追求する。
論文 参考訳(メタデータ) (2022-12-30T01:42:04Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Novelty Search in Representational Space for Sample Efficient
Exploration [38.2027946450689]
本稿では,モデルベースとモデルフリーを併用して学習した環境の低次元符号化を利用する,効率的な探索手法を提案する。
提案手法では,低次元表現空間における近接する近傍の距離に基づく固有報酬を用いて,新規性を測る。
次に、これらの本質的な報酬をサンプル効率の高い探索に利用し、表現空間における計画ルーチンを、疎度な報酬を伴うハードな探索タスクに活用する。
論文 参考訳(メタデータ) (2020-09-28T18:51:52Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。