論文の概要: Bellman Optimality of Average-Reward Robust Markov Decision Processes with a Constant Gain
- arxiv url: http://arxiv.org/abs/2509.14203v1
- Date: Wed, 17 Sep 2025 17:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.942983
- Title: Bellman Optimality of Average-Reward Robust Markov Decision Processes with a Constant Gain
- Title(参考訳): 一定ゲインを有する平均逆ロバストマルコフ決定過程のベルマン最適性
- Authors: Shengbo Wang, Nian Si,
- Abstract要約: 頑健なマルコフ決定プロセス(MDP)の下での学習と最適制御が注目されている。
平均再帰の定式化は、多くの運用研究や管理の文脈では自然であるが、まだ過小評価されている。
本稿では, 定常ゲイン設定を解析し, 平均回帰ロバストMDPの一般的な枠組みに向けて進む。
- 参考スコア(独自算出の注目度): 11.174902793218834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning and optimal control under robust Markov decision processes (MDPs) have received increasing attention, yet most existing theory, algorithms, and applications focus on finite-horizon or discounted models. The average-reward formulation, while natural in many operations research and management contexts, remains underexplored. This is primarily because the dynamic programming foundations are technically challenging and only partially understood, with several fundamental questions remaining open. This paper steps toward a general framework for average-reward robust MDPs by analyzing the constant-gain setting. We study the average-reward robust control problem with possible information asymmetries between the controller and an S-rectangular adversary. Our analysis centers on the constant-gain robust Bellman equation, examining both the existence of solutions and their relationship to the optimal average reward. Specifically, we identify when solutions to the robust Bellman equation characterize the optimal average reward and stationary policies, and we provide sufficient conditions ensuring solutions' existence. These findings expand the dynamic programming theory for average-reward robust MDPs and lay a foundation for robust dynamic decision making under long-run average criteria in operational environments.
- Abstract(参考訳): 頑健なマルコフ決定過程(MDP)下での学習と最適制御は注目されているが、既存の理論、アルゴリズム、応用は有限水平または割引モデルに焦点を当てている。
平均再帰の定式化は、多くの運用研究や管理の文脈では自然であるが、まだ過小評価されている。
これは主に、動的プログラミングの基礎が技術的に困難であり、部分的にしか理解されていないためであり、いくつかの基本的な質問は未解決のままである。
本稿では, 定常ゲイン設定を解析し, 平均回帰ロバストMDPの一般的な枠組みに向けて進む。
制御器とS-正方形対角線間の情報対称性を考慮に入れた平均逆ロバスト制御問題について検討する。
解析は,解の存在と最適平均報酬との関係を考察し,定数ゲイン型ベルマン方程式に着目した。
具体的には、ロバストなベルマン方程式に対する解が最適平均報酬と定常ポリシーを特徴付けるときを特定し、解の存在を保証する十分な条件を提供する。
これらの知見は, 平均再帰ロバストなMDPに対する動的プログラミング理論を拡張し, 運用環境における長期平均基準の下でのロバストな動的決定の基礎を築いた。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Model-Free Robust Average-Reward Reinforcement Learning [25.125481838479256]
我々は,モデルフリーの反復設定の下で,ロバストな平均回帰MDPに着目した。
我々は2つのモデルフリーアルゴリズム、ロバスト相対値(RVI)TDとロバスト相対値(RVI)Q-ラーニングを設計し、理論的に最適解への収束性を証明した。
論文 参考訳(メタデータ) (2023-05-17T18:19:23Z) - Robust Average-Reward Markov Decision Processes [25.125481838479256]
我々は,不確実なセットに対して最悪の平均報酬を最適化する政策を見出すことを目標とする,堅牢な平均リワードMDPに焦点を当てる。
我々は, ディスカウント型MDPを用いて, 平均回帰MDPを近似するアプローチを採っている。
我々は、ロバスト平均逆 MDP に対するロバストなベルマン方程式を導出し、最適ポリシーがその解から導出できることを証明し、さらに、その解を確実に見つけ出すロバストな相対値アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-02T19:51:55Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。