論文の概要: Semi-gradient DICE for Offline Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.08644v1
- Date: Tue, 10 Jun 2025 09:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.263345
- Title: Semi-gradient DICE for Offline Constrained Reinforcement Learning
- Title(参考訳): オフライン制約強化学習のための半段階的DICE
- Authors: Woosung Kim, JunHo Seo, Jongmin Lee, Byung-Jun Lee,
- Abstract要約: 定常分布補正推定(DICE)は、政策によって誘導される定常分布と、信頼性の高いオフ政治評価(OPE)と政策最適化に必要な目標分布とのミスマッチに対処する。
DICEフレームワークのオフラインRL性能を高めるために設計された最近のアプローチは、意図せずOPEの実行能力を損なうため、制約付きRLシナリオには適さない。
本稿では,OPE と制約付き RL を半段階的 DICE で実現するための新しい手法を提案し,その精度を保証し,オフライン制約付き RL ベンチマーク DSRL 上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 9.216846183447249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stationary Distribution Correction Estimation (DICE) addresses the mismatch between the stationary distribution induced by a policy and the target distribution required for reliable off-policy evaluation (OPE) and policy optimization. DICE-based offline constrained RL particularly benefits from the flexibility of DICE, as it simultaneously maximizes return while estimating costs in offline settings. However, we have observed that recent approaches designed to enhance the offline RL performance of the DICE framework inadvertently undermine its ability to perform OPE, making them unsuitable for constrained RL scenarios. In this paper, we identify the root cause of this limitation: their reliance on a semi-gradient optimization, which solves a fundamentally different optimization problem and results in failures in cost estimation. Building on these insights, we propose a novel method to enable OPE and constrained RL through semi-gradient DICE. Our method ensures accurate cost estimation and achieves state-of-the-art performance on the offline constrained RL benchmark, DSRL.
- Abstract(参考訳): 定常分布補正推定(DICE)は、政策によって誘導される定常分布と、信頼性の高いオフ政治評価(OPE)と政策最適化に必要な目標分布とのミスマッチに対処する。
DICEベースのオフライン制約付きRLは、特にDICEの柔軟性の恩恵を受ける。
しかし、近年、DICEフレームワークのオフラインRL性能を高めるために設計されたアプローチは、OPEの実行能力を不注意に損なうため、制約付きRLシナリオには適さないことが観察されている。
本稿では、この制限の根本原因を、基本的に異なる最適化問題を解く半漸進最適化への依存と、コスト見積の失敗の結果として明らかにする。
これらの知見に基づいて,OPEと制約付きRLを半勾配DICEで実現するための新しい手法を提案する。
本手法は, オフライン制約付きRLベンチマークDSRLにおいて, 高精度なコスト推定と最先端性能を実現する。
関連論文リスト
- Exclusively Penalized Q-learning for Offline Reinforcement Learning [4.916646834691489]
制約に基づくオフライン強化学習(RL)は、分散シフトに起因する過大評価誤差を軽減するために、ポリシー制約や値関数に対する罰則を課す。
本稿では、ペナル化値関数を持つ既存のオフラインRL法における制限に着目し、値関数に導入される不要なバイアスによる過小評価バイアスの可能性を示す。
本稿では,推定誤差を誘導し易い状態を選択的にペナライズすることで,値関数における推定バイアスを低減する排他的罰則Q-ラーニング(EPQ)を提案する。
論文 参考訳(メタデータ) (2024-05-23T01:06:05Z) - CROP: Conservative Reward for Model-based Offline Policy Optimization [15.121328040092264]
本稿では、モデルベースオフラインポリシー最適化(CROP)のための新しいモデルベースオフラインRLアルゴリズム、保守的リワードを提案する。
保守的な報奨推定を実現するため、CROPは、ランダムな動作の推定誤差と報酬を同時に最小化する。
特にCROPは、オフラインRLとオンラインRLの革新的な接続を確立し、オンラインRL技術を採用することでオフラインRLの問題に取り組むことができることを強調している。
論文 参考訳(メタデータ) (2023-10-26T08:45:23Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Semi-Offline Reinforcement Learning for Optimized Text Generation [35.1606951874979]
強化学習(RL)では、オンラインとオフラインという、環境と対話するための2つの主要な設定がある。
オフライン手法は探索能力を犠牲にして効率よく報奨信号を得る。
オフラインからオンラインへスムーズに移行し、探索能力とトレーニングコストのバランスをとる新しいパラダイムである半オフラインRLを提案し、異なるRL設定を比較する理論的基盤を提供する。
論文 参考訳(メタデータ) (2023-06-16T09:24:29Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Off-Policy Evaluation via the Regularized Lagrangian [110.28927184857478]
最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
論文 参考訳(メタデータ) (2020-07-07T13:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。