論文の概要: Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values
- arxiv url: http://arxiv.org/abs/2603.00945v3
- Date: Tue, 10 Mar 2026 05:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:12.82747
- Title: Non-Rectangular Average-Reward Robust MDPs: Optimal Policies and Their Transient Values
- Title(参考訳): 非矩形平均逆ロバストMDPの最適解法とその過渡値
- Authors: Shengbo Wang, Nian Si,
- Abstract要約: 非矩形ロバストマルコフ決定過程を平均逆基準下で研究する。
あいまいさの集合に対して一様に、サブリニアな後悔を達成できる歴史に依存した政策が、頑健な最適化であることを示す。
- 参考スコア(独自算出の注目度): 11.174902793218834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study non-rectangular robust Markov decision processes under the average-reward criterion, where the ambiguity set couples transition probabilities across states and the adversary commits to a stationary kernel for the entire horizon. We show that any history-dependent policy achieving sublinear expected regret uniformly over the ambiguity set is robust-optimal, and that the robust value admits a minimax representation as the infimum over the ambiguity set of the classical optimal gains, without requiring any form of rectangularity or robust dynamic programming principle. Under the weak communication assumption, we establish the existence of such policies by converting high-probability regret bounds from the average-reward reinforcement learning literature into the expected-regret criterion. We then introduce a transient-value framework to evaluate finite-time performance of robust optimal policies, proving that average-reward optimality alone can mask arbitrarily poor transients and deriving regret-based lower bounds on transient values. Finally, we construct an epoch-based policy that combines an optimal stationary policy for the worst-case model with an anytime-valid sequential test and an online learning fallback, achieving a constant-order transient value.
- Abstract(参考訳): 本研究では,非正方形ロバストなマルコフ決定過程を平均回帰基準の下で検討し,あいまいさによって状態間の遷移確率が一致し,対向性は水平線全体に対して定常核にコミットすることを示した。
本研究は, アンビグニティ集合を一様に残すような履歴依存のポリシーは, アンビグニティ集合に対して一様であり, そのロバスト値が, 古典的最適ゲインのアンビグニティ集合上でのミニマックス表現を, 長方性やロバストな動的プログラミングの原理を必要とせず, 含意することを示す。
コミュニケーションの弱さを前提として, 平均回帰学習文献から予測回帰基準へ高確率後悔境界を変換することで, そのような政策の存在を確立した。
次に、安定な最適ポリシーの有限時間性能を評価するための過渡値フレームワークを導入し、平均回帰最適性だけで任意に貧弱な過渡値を隠蔽し、過渡値に対する後悔に基づく下限を導出できることを証明した。
最後に、最悪のケースモデルに対する最適な定常ポリシーと、任意の有意なシーケンシャルテストとオンライン学習のフォールバックを組み合わせたエポックベースのポリシーを構築し、一定の順序の過渡値を達成する。
関連論文リスト
- Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Best-Effort Policies for Robust Markov Decision Processes [69.60742680559788]
我々は、ロバスト MDP (RMDPs) として知られる遷移確率の組によるマルコフ決定過程(MDPs)の共通一般化について研究する。
このような政策を最適な堅牢なベストプラクティス(ORBE)政策と呼ぶ。
我々はORBEポリシーが常に存在することを証明し、その構造を特徴付け、標準的なロバストな値反復よりも小さなオーバヘッドで計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-11T09:18:34Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Policy Gradient Algorithms for Robust MDPs with Non-Rectangular Uncertainty Sets [10.560809881699468]
非矩形不確実性集合を持つロバスト無限水平マルコフ決定過程(MDP)に対するポリシー勾配アルゴリズムを提案する。
対応するロバストなMDPは動的プログラミング技術では解決できず、実際は難解である。
そこで我々は,大域的最適性保証を提供する非矩形不確実性集合を持つ頑健なMDPに対する最初の完全解法を提案する。
論文 参考訳(メタデータ) (2023-05-30T13:02:25Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Consistent Non-Parametric Methods for Adaptive Robustness [26.016647703500887]
標準のロバストな学習フレームワークの大きな欠点は、すべての入力に適用される人工的なロバスト性半径$r$の固定です。
本稿では, 適応ロバスト性のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-18T00:44:07Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。