論文の概要: Novelty Search in Representational Space for Sample Efficient
Exploration
- arxiv url: http://arxiv.org/abs/2009.13579v3
- Date: Fri, 15 Apr 2022 16:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:14:42.157074
- Title: Novelty Search in Representational Space for Sample Efficient
Exploration
- Title(参考訳): サンプル効率的な探索のための表現空間の新規探索
- Authors: Ruo Yu Tao, Vincent Fran\c{c}ois-Lavet, Joelle Pineau
- Abstract要約: 本稿では,モデルベースとモデルフリーを併用して学習した環境の低次元符号化を利用する,効率的な探索手法を提案する。
提案手法では,低次元表現空間における近接する近傍の距離に基づく固有報酬を用いて,新規性を測る。
次に、これらの本質的な報酬をサンプル効率の高い探索に利用し、表現空間における計画ルーチンを、疎度な報酬を伴うハードな探索タスクに活用する。
- 参考スコア(独自算出の注目度): 38.2027946450689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new approach for efficient exploration which leverages a
low-dimensional encoding of the environment learned with a combination of
model-based and model-free objectives. Our approach uses intrinsic rewards that
are based on the distance of nearest neighbors in the low dimensional
representational space to gauge novelty. We then leverage these intrinsic
rewards for sample-efficient exploration with planning routines in
representational space for hard exploration tasks with sparse rewards. One key
element of our approach is the use of information theoretic principles to shape
our representations in a way so that our novelty reward goes beyond pixel
similarity. We test our approach on a number of maze tasks, as well as a
control problem and show that our exploration approach is more sample-efficient
compared to strong baselines.
- Abstract(参考訳): 本稿では,モデルベースとモデルフリーを併用して学習した環境の低次元符号化を利用する,効率的な探索手法を提案する。
提案手法では,低次元表現空間における近傍近傍の距離に基づく固有報酬を用いて,新規性を測る。
次に,これらの内在的な報酬をサンプル効率のよい探索に活用し,表象空間の計画ルーチンを用いて,少ない報酬で難しい探索タスクを行う。
このアプローチの重要な要素の1つは、情報理論の原則を使って表現を形作り、新しい報酬がピクセルの類似性を超えるようにすることである。
我々は,多数の迷路タスクと制御問題に対してアプローチを検証し,探索手法が強いベースラインに比べて試料効率が高いことを示す。
関連論文リスト
- Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement
Learning [20.0888026410406]
我々は,Rademacher分布の標本を平均化することにより,カウントを導出できることを示す。
提案手法は, 従来よりも地中訪問回数の低減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-06-05T18:56:48Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Pure Exploration in Kernel and Neural Bandits [90.23165420559664]
我々は、特徴表現の次元が腕の数よりもはるかに大きい帯域における純粋な探索について研究する。
そこで本研究では,各アームの特徴表現を低次元空間に適応的に埋め込む手法を提案する。
論文 参考訳(メタデータ) (2021-06-22T19:51:59Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。