論文の概要: Demystifying the Mechanisms Behind Emergent Exploration in Goal-conditioned RL
- arxiv url: http://arxiv.org/abs/2510.14129v1
- Date: Wed, 15 Oct 2025 21:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.635839
- Title: Demystifying the Mechanisms Behind Emergent Exploration in Goal-conditioned RL
- Title(参考訳): ゴール条件RLにおける創発的探査のメカニズムの解明
- Authors: Mahsa Bastankhah, Grace Liu, Dilip Arumugam, Thomas L. Griffiths, Benjamin Eysenbach,
- Abstract要約: SGCRL(Single-Goal Contrastive Reinforcement Learning, SGCRL)は、長期的目標達成課題を解くことができる自己教師型アルゴリズムである。
本稿では,SGCRLが学習表現によって形成される暗黙の報酬を最大化することを示す。
改良された理解により、安全に配慮した探索にSGCRLを適応させることができる。
- 参考スコア(独自算出の注目度): 32.854183226427395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we take a first step toward elucidating the mechanisms behind emergent exploration in unsupervised reinforcement learning. We study Single-Goal Contrastive Reinforcement Learning (SGCRL), a self-supervised algorithm capable of solving challenging long-horizon goal-reaching tasks without external rewards or curricula. We combine theoretical analysis of the algorithm's objective function with controlled experiments to understand what drives its exploration. We show that SGCRL maximizes implicit rewards shaped by its learned representations. These representations automatically modify the reward landscape to promote exploration before reaching the goal and exploitation thereafter. Our experiments also demonstrate that these exploration dynamics arise from learning low-rank representations of the state space rather than from neural network function approximation. Our improved understanding enables us to adapt SGCRL to perform safety-aware exploration.
- Abstract(参考訳): 本研究では,教師なし強化学習における創発的探索のメカニズムを明らかにするための第一歩を踏み出した。
SGCRL(Single-Goal Contrastive Reinforcement Learning, SGCRL)は、長期目標達成課題を、外部報酬やカリキュラムなしで解決できる自己指導型アルゴリズムである。
我々は,アルゴリズムの目的関数の理論的解析と制御された実験を組み合わせることにより,その探索の動機を解明する。
本稿では,SGCRLが学習表現によって形成される暗黙の報酬を最大化することを示す。
これらの表現は、ゴールに到達する前に探索を促進するために報酬のランドスケープを自動的に修正し、その後に活用する。
また,これらの探索力学は,ニューラルネットワーク関数近似からではなく,状態空間の低ランク表現を学習することによってもたらされることを示した。
改良された理解により、安全に配慮した探索にSGCRLを適応させることができる。
関連論文リスト
- Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR [15.147456927849932]
RLVR(Reinforcement Learning for Verifiable Rewards)の一般的な見解は、探索・探索トレードオフのレンズを通して最近の進歩を解釈している。
我々はこの視点を再検討し、この認識されたトレードオフは基本的な制約ではなく、測定レベルの成果物である可能性を示唆している。
本稿では,相乗的探索・探索強化の原理を最初に運用する,Velocity-Exploiting Rank-Learning (VERL)を提案する。
論文 参考訳(メタデータ) (2025-09-28T11:14:58Z) - Curriculum-Based Multi-Tier Semantic Exploration via Deep Reinforcement Learning [1.8374319565577155]
本稿では,資源効率の良い意味探索を目的とした新しいDeep Reinforcement Learningアーキテクチャを提案する。
重要な方法論的貢献は、層状報酬関数によるビジョンランゲージモデル(VLM)の共通センスの統合である。
本研究では,本エージェントがオブジェクト発見率を大幅に向上し,セマンティックにリッチな領域へ効果的にナビゲートする学習能力を開発したことを示す。
論文 参考訳(メタデータ) (2025-09-11T11:10:08Z) - MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Intrinsically-Motivated Reinforcement Learning: A Brief Introduction [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の3つの基本パラダイムの1つである。
本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。
論文 参考訳(メタデータ) (2022-03-03T12:39:58Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Intrinsic Exploration as Multi-Objective RL [29.124322674133]
内在的モチベーションは、報酬が非常に少ないときに強化学習(RL)エージェントを探索することを可能にする。
本稿では,多目的RLに基づくフレームワークを提案する。
この定式化は、探索と搾取のバランスを政策レベルでもたらし、従来の方法よりも有利になる。
論文 参考訳(メタデータ) (2020-04-06T02:37:29Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。