論文の概要: Primal-Dual Policy Optimization for Linear CMDPs with Adversarial Losses
- arxiv url: http://arxiv.org/abs/2605.11535v1
- Date: Tue, 12 May 2026 05:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.59473
- Title: Primal-Dual Policy Optimization for Linear CMDPs with Adversarial Losses
- Title(参考訳): 逆損失を考慮した線形CMDPの2次最適化
- Authors: Kihyun Yu, Seoungbin Bae, Dabeen Lee,
- Abstract要約: 我々は、LogSumExpソフトマックスポリシーと呼ばれる新しいクラスのポリシーを導入し、実行します。
周期的ポリシーミキシングと正規化された二重更新という2つの新しいアルゴリズムコンポーネントは、被覆数と二重変数の両方を効果的に制御できる。
- 参考スコア(独自算出の注目度): 0.8984888893275712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work on linear constrained Markov decision processes (CMDPs) has primarily focused on stochastic settings, where the losses and costs are either fixed or drawn from fixed distributions. However, such formulations are inherently vulnerable to adversarially changing environments. To overcome this limitation, we propose a primal-dual policy optimization algorithm for online finite-horizon {adversarial} linear CMDPs, where the losses are adversarially chosen under full-information feedback and the costs are stochastic under bandit feedback. Our algorithm is the \emph{first} to achieve sublinear regret and constraint violation bounds in this setting, both bounded by $\widetilde{\mathcal{O}}(K^{3/4})$, where $K$ denotes the number of episodes. The algorithm introduces and runs with a new class of policies, which we call weighted LogSumExp softmax policies, designed to adapt to adversarially chosen loss functions. Our main result stems from the following key contributions: (i) a new covering number argument for the weighted LogSumExp softmax policies, and (ii) two novel algorithmic components -- periodic policy mixing and a regularized dual update -- which allow us to effectively control both the covering number and the dual variable. We also report numerical results that validate our theoretical findings on the performance of the algorithm.
- Abstract(参考訳): 線形制約付きマルコフ決定プロセス(CMDP)に関する既存の研究は、主に確率的設定に焦点を合わせており、損失とコストは固定された分布から引き出されるか、固定された分布から引き出される。
しかし、このような定式化は本質的に敵対的に変化する環境に対して脆弱である。
この制限を克服するため,オンライン有限ホライズン {adversarial} 線形CMDPに対して,全情報フィードバックの下で損失が逆選択され,帯域幅フィードバックの下でコストが確率的となるようなプライマリ・デュアルポリシー最適化アルゴリズムを提案する。
我々のアルゴリズムは、この設定においてサブ線形後悔と制約違反境界を達成するためのemph{first}であり、どちらも$\widetilde{\mathcal{O}}(K^{3/4})$で制限されている。
このアルゴリズムは、対向的に選択された損失関数に適応するように設計された、重み付けされたLogSumExpソフトマックスポリシーと呼ばれる新しいポリシーを導入し、実行します。
私たちの主な成果は、以下の重要な貢献に起因しています。
(i)重み付きLogSumExpソフトマックスポリシーの新しい被覆数引数、及び
(II)2つの新しいアルゴリズムコンポーネント -- 周期的ポリシー混合と正規化された二重更新 -- により、被覆数と二重変数の両方を効果的に制御できる。
また,アルゴリズムの性能に関する理論的知見を検証した数値結果も報告する。
関連論文リスト
- Near-Optimal Primal-Dual Algorithm for Learning Linear Mixture CMDPs with Adversarial Rewards [0.8984888893275712]
有限-水平線形混合制約マルコフ決定過程における安全強化学習について検討する。
本稿では, 後悔と制約違反境界を実現するプリミティブ・デュアルポリシー最適化アルゴリズムを提案する。
これは、線形混合CMDPと逆効果を持つ最初の証明可能な効率のよいアルゴリズムである。
論文 参考訳(メタデータ) (2026-03-29T21:51:33Z) - Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Best-of-Both-Worlds Policy Optimization for CMDPs with Bandit Feedback [34.7178680288326]
Stradi et al.(2024) は、マルコフ決定過程に制約のある最初のベスト・オブ・ボス・ワールドズ・アルゴリズムを提案した。
本稿では,CMDPにおける帯域幅フィードバックを用いたベスト・オブ・ワールドズ・アルゴリズムを提案する。
本アルゴリズムは政策最適化手法に基づいており, 占有率に基づく手法よりも効率的である。
論文 参考訳(メタデータ) (2024-10-03T07:44:40Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。