論文の概要: Dense and Diverse Goal Coverage in Multi Goal Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.25311v1
- Date: Wed, 29 Oct 2025 09:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.299219
- Title: Dense and Diverse Goal Coverage in Multi Goal Reinforcement Learning
- Title(参考訳): 多目的強化学習におけるDense and Diverse Goal Coverage
- Authors: Sagalpreet Singh, Rishi Saket, Aravindan Raghuveer,
- Abstract要約: 自然の状況では、報酬状態よりも境界状態の分散を誘導する政策を学ぶことが望ましい。
そこで本稿では,目標状態の集合上に分布する境界状態と高戻り値の混合を学習するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 13.831084892489754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning algorithms are primarily focused on learning a policy that maximizes expected return. As a result, the learned policy can exploit one or few reward sources. However, in many natural situations, it is desirable to learn a policy that induces a dispersed marginal state distribution over rewarding states, while maximizing the expected return which is typically tied to reaching a goal state. This aspect remains relatively unexplored. Existing techniques based on entropy regularization and intrinsic rewards use stochasticity for encouraging exploration to find an optimal policy which may not necessarily lead to dispersed marginal state distribution over rewarding states. Other RL algorithms which match a target distribution assume the latter to be available apriori. This may be infeasible in large scale systems where enumeration of all states is not possible and a state is determined to be a goal state only upon reaching it. We formalize the problem of maximizing the expected return while uniformly visiting the goal states as Multi Goal RL in which an oracle classifier over the state space determines the goal states. We propose a novel algorithm that learns a high-return policy mixture with marginal state distribution dispersed over the set of goal states. Our algorithm is based on optimizing a custom RL reward which is computed - based on the current policy mixture - at each iteration for a set of sampled trajectories. The latter are used via an offline RL algorithm to update the policy mixture. We prove performance guarantees for our algorithm, showing efficient convergence bounds for optimizing a natural objective which captures the expected return as well as the dispersion of the marginal state distribution over the goal states. We design and perform experiments on synthetic MDPs and standard RL environments to evaluate the effectiveness of our algorithm.
- Abstract(参考訳): 強化学習アルゴリズムは主に、期待されるリターンを最大化するポリシーを学ぶことに焦点を当てている。
結果として、学習したポリシーは、報酬源を1つまたは少なめに活用することができる。
しかし、多くの自然状況において、通常ゴール状態に達することに結びついている期待されたリターンを最大化しながら、報酬状態よりも分散した限界状態分布を誘導する政策を学ぶことが望ましい。
この側面はいまだに解明されていない。
エントロピー正則化と本質的な報酬に基づく既存の技術は、必ずしも報酬状態よりも境界状態の分散に繋がるとは限らない最適な政策を見つけるために探索を奨励するために確率性を利用する。
ターゲット分布にマッチする他のRLアルゴリズムは、後者が利用できると仮定する。
これは、全ての状態の列挙が不可能な大規模システムでは不可能であり、状態が到達時にのみゴール状態であると判断される。
我々は、目標状態に一様に訪問しながら、期待したリターンを最大化する問題を、状態空間上のオラクル分類器がゴール状態を決定するマルチゴールRLとして定式化する。
そこで本稿では,目標状態の集合上に分布する境界状態と高戻り値の混合を学習するアルゴリズムを提案する。
提案アルゴリズムは,一組のサンプルトラジェクトリに対して,各イテレーションにおいて,現在のポリシミックスに基づいて計算されたカスタムRL報酬を最適化することに基づいている。
後者はオフラインのRLアルゴリズムを使ってポリシーを更新する。
我々は,本アルゴリズムの性能保証を証明し,目標状態上の限界状態分布の分散だけでなく,期待したリターンを捕捉する自然な目的を最適化するための効率的な収束境界を示す。
提案アルゴリズムの有効性を評価するため,合成MDPと標準RL環境に関する実験を設計・実施する。
関連論文リスト
- Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。