論文の概要: LECO: Learnable Episodic Count for Task-Specific Intrinsic Reward
- arxiv url: http://arxiv.org/abs/2210.05409v1
- Date: Tue, 11 Oct 2022 12:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:28:08.673089
- Title: LECO: Learnable Episodic Count for Task-Specific Intrinsic Reward
- Title(参考訳): LECO:タスク固有のリワードのための学習可能なエピソードカウント
- Authors: Daejin Jo, Sungwoong Kim, Daniel Wontae Nam, Taehwan Kwon, Seungeun
Rho, Jongmin Kim, Donghoon Lee
- Abstract要約: エピソードカウントは、単純だが効果的な本質的なモチベーションを、まばらな報酬を伴う強化学習のために設計するために広く用いられている。
本稿では,難解な探索問題において,タスク固有の固有報酬として効率的に機能する,学習可能なハッシュベースのエピソードカウントを提案する。
- 参考スコア(独自算出の注目度): 18.876996382063517
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Episodic count has been widely used to design a simple yet effective
intrinsic motivation for reinforcement learning with a sparse reward. However,
the use of episodic count in a high-dimensional state space as well as over a
long episode time requires a thorough state compression and fast hashing, which
hinders rigorous exploitation of it in such hard and complex exploration
environments. Moreover, the interference from task-irrelevant observations in
the episodic count may cause its intrinsic motivation to overlook task-related
important changes of states, and the novelty in an episodic manner can lead to
repeatedly revisit the familiar states across episodes. In order to resolve
these issues, in this paper, we propose a learnable hash-based episodic count,
which we name LECO, that efficiently performs as a task-specific intrinsic
reward in hard exploration problems. In particular, the proposed intrinsic
reward consists of the episodic novelty and the task-specific modulation where
the former employs a vector quantized variational autoencoder to automatically
obtain the discrete state codes for fast counting while the latter regulates
the episodic novelty by learning a modulator to optimize the task-specific
extrinsic reward. The proposed LECO specifically enables the automatic
transition from exploration to exploitation during reinforcement learning. We
experimentally show that in contrast to the previous exploration methods LECO
successfully solves hard exploration problems and also scales to large state
spaces through the most difficult tasks in MiniGrid and DMLab environments.
- Abstract(参考訳): エピソードカウントは、単純だが効果的な本質的なモチベーションを設計するために広く使われてきた。
しかし、高次元状態空間と長時間にわたるエピソードカウントの使用は、徹底的な状態圧縮と高速ハッシュを必要とするため、そのような硬く複雑な探査環境での厳密な利用を妨げている。
さらに、エピソード数におけるタスク非関連観測からの干渉は、その本質的なモチベーションがタスク関連の重要な状態の変化を見逃すことを招きかねない。
この問題を解決するため,本稿では,難解な探索問題においてタスク固有の内在的な報酬として効率的に機能する,学習可能なハッシュベースのエピソディックカウントを提案する。
特に、提案する本質的報酬は、前者がベクトル量子化された変分オートエンコーダを用いて離散状態符号を自動的に取得し、後者がモジュレータを学習してタスク固有の特有報酬を最適化してエピソドイノリティを規制する、エピソドイノリティとタスク固有の変調からなる。
提案したLECOは、強化学習中の探索から搾取への自動移行を可能にする。
従来の探査手法と対照的にLECOは,MiniGrid や DMLab の環境において,探索の難しさを解消し,また大規模状態空間にも拡張可能であることを示す。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Dense Dynamics-Aware Reward Synthesis: Integrating Prior Experience with Demonstrations [24.041217922654738]
連続制御問題はスパース・リワード強化学習(RL)タスクとして定式化することができる。
オンラインRLメソッドは、各新しいタスクを解決するために、状態空間を自動的に探索することができる。
しかしながら、非ゼロ報酬につながる行動列の発見は、タスクの水平線が増加するにつれて指数関数的に難しくなる。
本稿では,1)タスク非依存の事前データセットに含まれる情報を抽出し,2)少数のタスク固有の専門家によるデモンストレーションを行う,体系的な報酬形成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-02T04:37:12Z) - Mitigating Interference in the Knowledge Continuum through Attention-Guided Incremental Learning [17.236861687708096]
Attention-Guided Incremental Learning' (AGILE)は、タスク間の干渉を効果的に軽減するために、コンパクトなタスク注意を組み込んだリハーサルベースのCLアプローチである。
AGILEは、タスク干渉を緩和し、複数のCLシナリオにおいてリハーサルベースのアプローチより優れていることで、一般化性能を著しく向上する。
論文 参考訳(メタデータ) (2024-05-22T20:29:15Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文 参考訳(メタデータ) (2021-11-22T07:34:47Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。