論文の概要: A Temporally Correlated Latent Exploration for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.04775v1
- Date: Fri, 06 Dec 2024 04:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:18.789953
- Title: A Temporally Correlated Latent Exploration for Reinforcement Learning
- Title(参考訳): 強化学習のための時間的関連潜伏探索
- Authors: SuMin Oh, WanSoo Kim, HyunJin Kim,
- Abstract要約: 時間的関連潜伏探索(TeCLE)は、行動条件付き潜伏空間と時間的相関を用いた、本質的な報酬の定式化である。
その結果, エージェントの探索行動は時間的相関によって決定されることがわかった。
我々は,提案するTeCLEが,ベンチマーク環境でのノイズTVのアンドリティに対して堅牢であることを証明する。
- 参考スコア(独自算出の注目度): 4.1101087490516575
- License:
- Abstract: Efficient exploration remains one of the longstanding problems of deep reinforcement learning. Instead of depending solely on extrinsic rewards from the environments, existing methods use intrinsic rewards to enhance exploration. However, we demonstrate that these methods are vulnerable to Noisy TV and stochasticity. To tackle this problem, we propose Temporally Correlated Latent Exploration (TeCLE), which is a novel intrinsic reward formulation that employs an action-conditioned latent space and temporal correlation. The action-conditioned latent space estimates the probability distribution of states, thereby avoiding the assignment of excessive intrinsic rewards to unpredictable states and effectively addressing both problems. Whereas previous works inject temporal correlation for action selection, the proposed method injects it for intrinsic reward computation. We find that the injected temporal correlation determines the exploratory behaviors of agents. Various experiments show that the environment where the agent performs well depends on the amount of temporal correlation. To the best of our knowledge, the proposed TeCLE is the first approach to consider the action conditioned latent space and temporal correlation for curiosity-driven exploration. We prove that the proposed TeCLE can be robust to the Noisy TV and stochasticity in benchmark environments, including Minigrid and Stochastic Atari.
- Abstract(参考訳): 効率的な探索は、深い強化学習の長年の問題の1つとして残されている。
既存の方法では、外部からの報酬にのみ依存するのではなく、本質的な報酬を使って探索を強化する。
しかし,これらの手法は,ノイズTVや確率性に対して脆弱であることを示す。
この問題に対処するために,動作条件付き潜時空間と時間相関を用いた新たな固有報酬定式化であるTeCLE(Temporally Correlated Latent Exploration)を提案する。
動作条件付き潜在空間は状態の確率分布を推定し、予測不可能な状態への過度の内在報酬の割り当てを回避し、両方の問題に効果的に対処する。
従来の作業では動作選択に時間的相関を注入するが,本提案手法では固有報酬計算に時間的相関を注入する。
その結果, エージェントの探索行動は時間的相関によって決定されることがわかった。
種々の実験により, エージェントがよく機能する環境は時間的相関の量に依存することが示された。
我々の知る限り、提案したTeCLEは、好奇心による探索のための行動条件付き潜伏空間と時間的相関を考えるための最初のアプローチである。
The proposed TeCLE can be robust to the Noisy TV and stochasticity in benchmark environment, including Minigrid and Stochastic Atari。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Locally Persistent Exploration in Continuous Control Tasks with Sparse
Rewards [0.0]
2つの直観に基づく新しい探索法を提案する。
次の探索アクションの選択は、環境の(マルコフの)状態だけでなく、エージェントの軌道にも依存する必要があります。
本稿では,局所的自己回避歩行の理論的特性と,短期記憶の提供能力について論じる。
論文 参考訳(メタデータ) (2020-12-26T01:30:26Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。