論文の概要: LECO: Learnable Episodic Count for Task-Specific Intrinsic Reward
- arxiv url: http://arxiv.org/abs/2210.05409v1
- Date: Tue, 11 Oct 2022 12:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:28:08.673089
- Title: LECO: Learnable Episodic Count for Task-Specific Intrinsic Reward
- Title(参考訳): LECO:タスク固有のリワードのための学習可能なエピソードカウント
- Authors: Daejin Jo, Sungwoong Kim, Daniel Wontae Nam, Taehwan Kwon, Seungeun
Rho, Jongmin Kim, Donghoon Lee
- Abstract要約: エピソードカウントは、単純だが効果的な本質的なモチベーションを、まばらな報酬を伴う強化学習のために設計するために広く用いられている。
本稿では,難解な探索問題において,タスク固有の固有報酬として効率的に機能する,学習可能なハッシュベースのエピソードカウントを提案する。
- 参考スコア(独自算出の注目度): 18.876996382063517
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Episodic count has been widely used to design a simple yet effective
intrinsic motivation for reinforcement learning with a sparse reward. However,
the use of episodic count in a high-dimensional state space as well as over a
long episode time requires a thorough state compression and fast hashing, which
hinders rigorous exploitation of it in such hard and complex exploration
environments. Moreover, the interference from task-irrelevant observations in
the episodic count may cause its intrinsic motivation to overlook task-related
important changes of states, and the novelty in an episodic manner can lead to
repeatedly revisit the familiar states across episodes. In order to resolve
these issues, in this paper, we propose a learnable hash-based episodic count,
which we name LECO, that efficiently performs as a task-specific intrinsic
reward in hard exploration problems. In particular, the proposed intrinsic
reward consists of the episodic novelty and the task-specific modulation where
the former employs a vector quantized variational autoencoder to automatically
obtain the discrete state codes for fast counting while the latter regulates
the episodic novelty by learning a modulator to optimize the task-specific
extrinsic reward. The proposed LECO specifically enables the automatic
transition from exploration to exploitation during reinforcement learning. We
experimentally show that in contrast to the previous exploration methods LECO
successfully solves hard exploration problems and also scales to large state
spaces through the most difficult tasks in MiniGrid and DMLab environments.
- Abstract(参考訳): エピソードカウントは、単純だが効果的な本質的なモチベーションを設計するために広く使われてきた。
しかし、高次元状態空間と長時間にわたるエピソードカウントの使用は、徹底的な状態圧縮と高速ハッシュを必要とするため、そのような硬く複雑な探査環境での厳密な利用を妨げている。
さらに、エピソード数におけるタスク非関連観測からの干渉は、その本質的なモチベーションがタスク関連の重要な状態の変化を見逃すことを招きかねない。
この問題を解決するため,本稿では,難解な探索問題においてタスク固有の内在的な報酬として効率的に機能する,学習可能なハッシュベースのエピソディックカウントを提案する。
特に、提案する本質的報酬は、前者がベクトル量子化された変分オートエンコーダを用いて離散状態符号を自動的に取得し、後者がモジュレータを学習してタスク固有の特有報酬を最適化してエピソドイノリティを規制する、エピソドイノリティとタスク固有の変調からなる。
提案したLECOは、強化学習中の探索から搾取への自動移行を可能にする。
従来の探査手法と対照的にLECOは,MiniGrid や DMLab の環境において,探索の難しさを解消し,また大規模状態空間にも拡張可能であることを示す。
関連論文リスト
- Mitigating Interference in the Knowledge Continuum through Attention-Guided Incremental Learning [17.236861687708096]
Attention-Guided Incremental Learning' (AGILE)は、タスク間の干渉を効果的に軽減するために、コンパクトなタスク注意を組み込んだリハーサルベースのCLアプローチである。
AGILEは、タスク干渉を緩和し、複数のCLシナリオにおいてリハーサルベースのアプローチより優れていることで、一般化性能を著しく向上する。
論文 参考訳(メタデータ) (2024-05-22T20:29:15Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Episodic Multi-agent Reinforcement Learning with Curiosity-Driven
Exploration [40.87053312548429]
EMCと呼ばれる好奇心を駆使した新しい多エージェント強化学習について紹介する。
我々は,個別Q値の予測誤差を協調探索の本質的な報奨として使用し,エピソードメモリを用いて探索的な情報的経験を利用して政策訓練を促進する。
論文 参考訳(メタデータ) (2021-11-22T07:34:47Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。