論文の概要: SEMDICE: Off-policy State Entropy Maximization via Stationary Distribution Correction Estimation
- arxiv url: http://arxiv.org/abs/2512.10042v1
- Date: Wed, 10 Dec 2025 19:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.037504
- Title: SEMDICE: Off-policy State Entropy Maximization via Stationary Distribution Correction Estimation
- Title(参考訳): SEMDICE: 定常分布補正推定によるオフ政治状態エントロピー最大化
- Authors: Jongmin Lee, Meiqi Sun, Pieter Abbeel,
- Abstract要約: 強化学習のための教師なし学習において、エージェントは、タスク固有の報酬関数に頼ることなく、下流タスクの事前ポリシーを学習することを目的としている。
我々は、状態の定常分布のエントロピーを最大化する政策を学ぶことを目標とする状態エントロピー(SEM)に焦点を当てる。
本稿では、任意のオフポリシーデータセットからSEMポリシーを計算する、原則付きオフポリシーアルゴリズムSEMDICEを紹介する。
- 参考スコア(独自算出の注目度): 54.537828696303286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the unsupervised pre-training for reinforcement learning, the agent aims to learn a prior policy for downstream tasks without relying on task-specific reward functions. We focus on state entropy maximization (SEM), where the goal is to learn a policy that maximizes the entropy of the state stationary distribution. In this paper, we introduce SEMDICE, a principled off-policy algorithm that computes an SEM policy from an arbitrary off-policy dataset, which optimizes the policy directly within the space of stationary distributions. SEMDICE computes a single, stationary Markov state-entropy-maximizing policy from an arbitrary off-policy dataset. Experimental results demonstrate that SEMDICE outperforms baseline algorithms in maximizing state entropy while achieving the best adaptation efficiency for downstream tasks among SEM-based unsupervised RL pre-training methods.
- Abstract(参考訳): 強化学習のための教師なし事前学習において、エージェントは、タスク固有の報酬関数に頼ることなく、下流タスクの事前ポリシーを学習することを目的としている。
我々は、状態の定常分布のエントロピーを最大化する政策を学ぶことを目標とする状態エントロピー最大化(SEM)に焦点を当てる。
本稿では、任意のオフポリティデータセットからSEMポリシーを計算し、定常分布空間内で直接ポリシーを最適化する原則付きオフポリティアルゴリズムSEMDICEを紹介する。
SEMDICEは任意のオフポリシーデータセットから1つの定常マルコフ状態エントロピー最大化ポリシーを計算する。
実験により,SEMDICEは,SEMに基づく教師なしRL事前学習法において,下流タスクの適応効率を最良に向上しつつ,状態エントロピーを最大化するためのベースラインアルゴリズムよりも優れていることが示された。
関連論文リスト
- EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data [3.6714630660726586]
オフライン強化学習(RL)は,事前収集したデータを活用することで,期待される全報酬を最大化するために,動的環境における最適ポリシーを見つけることを目的としている。
従来の手法では、単一のエピソードや均質なバッチエピソードから事前に収集されたデータを持つすべての個人に対して最適なポリシーを学ぶことに重点を置いている。
異種時間定常マルコフ決定プロセスのための個別化オフラインポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T15:44:10Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。
特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。
我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文 参考訳(メタデータ) (2022-12-14T22:43:56Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Robustness and risk management via distributional dynamic programming [13.173307471333619]
我々は,政策評価のための実用的なDPアルゴリズムとともに,分散演算子の新しいクラスを導入する。
我々の手法は、各状態が最悪の部分状態と最良の部分状態に分割される拡張状態空間を通して再構成される。
我々は、分散演算子とDPアルゴリズムを導出し、新しい制御課題を解決する。
論文 参考訳(メタデータ) (2021-12-28T12:12:57Z) - Entropy-Augmented Entropy-Regularized Reinforcement Learning and a
Continuous Path from Policy Gradient to Q-Learning [5.185562073975834]
エントロピー増強が改革され、目的関数に追加のエントロピー項を導入するモチベーションがもたらされる。
結果として、現在の政策からソフトマックスグレディ政策に補間しながら、単調に改善する政策がもたらされる。
論文 参考訳(メタデータ) (2020-05-18T16:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。