論文の概要: Maximum Entropy Exploration Without the Rollouts
- arxiv url: http://arxiv.org/abs/2603.12325v1
- Date: Thu, 12 Mar 2026 18:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.701297
- Title: Maximum Entropy Exploration Without the Rollouts
- Title(参考訳): ロールアウトのない最大エントロピー探査
- Authors: Jacob Adamczyk, Adam Kamoski, Rahul V. Kulkarni,
- Abstract要約: 探索問題の原則的反復は、誘導定常訪問分布のエントロピーを最大化するポリシーを見つけることである。
本研究では,訪問分布自体から報酬が導出される本質的な平均回帰を考えることにより,最適ポリシが定常エントロピーを最大化する。
この知見は、明示的なロールアウトと分布推定を避けるために、最大エントロピー探索問題の解法であるEVEに導かれる。
- 参考スコア(独自算出の注目度): 5.008597638379228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient exploration remains a central challenge in reinforcement learning, serving as a useful pretraining objective for data collection, particularly when an external reward function is unavailable. A principled formulation of the exploration problem is to find policies that maximize the entropy of their induced steady-state visitation distribution, thereby encouraging uniform long-run coverage of the state space. Many existing exploration approaches require estimating state visitation frequencies through repeated on-policy rollouts, which can be computationally expensive. In this work, we instead consider an intrinsic average-reward formulation in which the reward is derived from the visitation distribution itself, so that the optimal policy maximizes steady-state entropy. An entropy-regularized version of this objective admits a spectral characterization: the relevant stationary distributions can be computed from the dominant eigenvectors of a problem-dependent transition matrix. This insight leads to a novel algorithm for solving the maximum entropy exploration problem, EVE (EigenVector-based Exploration), which avoids explicit rollouts and distribution estimation, instead computing the solution through iterative updates, similar to a value-based approach. To address the original unregularized objective, we employ a posterior-policy iteration (PPI) approach, which monotonically improves the entropy and converges in value. We prove convergence of EVE under standard assumptions and demonstrate empirically that it efficiently produces policies with high steady-state entropy, achieving competitive exploration performance relative to rollout-based baselines in deterministic grid-world environments.
- Abstract(参考訳): 効率的な探索は強化学習における中心的な課題であり、特に外部報酬関数が利用できない場合、データ収集に有用な事前学習目的として役立っている。
探索問題の原則的定式化は、誘導された定常的訪問分布のエントロピーを最大化し、状態空間の均一な長期被覆を促進する政策を見つけることである。
多くの既存探査手法では、繰り返しのオン・ポリケーション・ロールアウトを通じて国家訪問頻度を推定する必要があるが、これは計算に費用がかかる可能性がある。
そこで本研究では,訪問分布自体から報酬を導出する本質的な平均回帰式を考えることにより,最適ポリシが定常エントロピーを最大化する。
この目的のエントロピー規則化されたバージョンはスペクトル的特徴を認めており、関連する定常分布は問題依存遷移行列の支配的固有ベクトルから計算することができる。
この洞察は、EVE(EigenVector-based Exploration)と呼ばれる最大エントロピー探索問題の解法に導かれる。
元の非正規化目的に対処するために、エントロピーを単調に改善し、価値を収束させる、後続政治反復(PPI)アプローチを用いる。
我々は,EVEの標準仮定による収束を実証し,高い定常エントロピーを持つ政策を効率よく生成し,決定論的グリッドワールド環境におけるロールアウトベースラインに対する競争的探索性能を達成することを実証した。
関連論文リスト
- Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Entropy annealing for policy mirror descent in continuous time and space [2.8255028200738455]
本研究では,エントロピー正則化が出口時間制御問題に対する政策手法の収束に及ぼす影響について検討する。
本稿では,真の勾配であっても,エントロピー正則化が政策最適化をどのように改善するかを説明する。
論文 参考訳(メタデータ) (2024-05-30T17:02:18Z) - Optimal scheduling of entropy regulariser for continuous-time
linear-quadratic reinforcement learning [9.779769486156631]
ここで、エージェントは最適な緩和ポリシーに従って分散されたノイズ制御を生成することで環境と相互作用する。
この探索-探索トレードオフはエントロピー正則化の強さによって決定される。
どちらの学習アルゴリズムも、$mathcalO(sqrtN)$(対数係数まで)を$N$のエピソードよりも高く、文献から最もよく知られた結果と一致することを証明している。
論文 参考訳(メタデータ) (2022-08-08T23:36:40Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。