論文の概要: Linear Mixture Distributionally Robust Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2505.18044v1
- Date: Fri, 23 May 2025 15:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.205288
- Title: Linear Mixture Distributionally Robust Markov Decision Processes
- Title(参考訳): 線形混合分布ロバストマルコフ決定過程
- Authors: Zhishuai Liu, Pan Xu,
- Abstract要約: 分布的に堅牢なマルコフ決定プロセス(DRMDP)は、最悪の環境下でうまく機能する堅牢なポリシーを見つけることでこの問題に対処する。
本稿では,線形混合モデルとして名目力学を仮定する,新しい線形混合DRMDPフレームワークを提案する。
この新たなフレームワークは,従来のモデルに比べて不確実性の表現がより洗練されていることを示す。
- 参考スコア(独自算出の注目度): 6.969949986864736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world decision-making problems face the off-dynamics challenge: the agent learns a policy in a source domain and deploys it in a target domain with different state transitions. The distributionally robust Markov decision process (DRMDP) addresses this challenge by finding a robust policy that performs well under the worst-case environment within a pre-specified uncertainty set of transition dynamics. Its effectiveness heavily hinges on the proper design of these uncertainty sets, based on prior knowledge of the dynamics. In this work, we propose a novel linear mixture DRMDP framework, where the nominal dynamics is assumed to be a linear mixture model. In contrast with existing uncertainty sets directly defined as a ball centered around the nominal kernel, linear mixture DRMDPs define the uncertainty sets based on a ball around the mixture weighting parameter. We show that this new framework provides a more refined representation of uncertainties compared to conventional models based on $(s,a)$-rectangularity and $d$-rectangularity, when prior knowledge about the mixture model is present. We propose a meta algorithm for robust policy learning in linear mixture DRMDPs with general $f$-divergence defined uncertainty sets, and analyze its sample complexities under three divergence metrics instantiations: total variation, Kullback-Leibler, and $\chi^2$ divergences. These results establish the statistical learnability of linear mixture DRMDPs, laying the theoretical foundation for future research on this new setting.
- Abstract(参考訳): エージェントはソースドメインでポリシーを学び、異なる状態遷移を持つターゲットドメインにデプロイする。
分布的に堅牢なマルコフ決定プロセス(DRMDP)は、予め特定された不確実性の遷移力学の集合の中で最悪の環境下でうまく機能する堅牢なポリシーを見つけることでこの問題に対処する。
その有効性は、これらの不確実性集合の適切な設計に大きく依存しており、力学の事前の知識に基づいている。
本研究では,線形混合モデルとして名目力学を仮定する,新しい線形混合DPフレームワークを提案する。
名前付きカーネルを中心とした球として直接定義される既存の不確実性集合とは対照的に、線形混合DRMDPは混合重み付けパラメータの周りの球に基づいて不確実性集合を定義する。
混合モデルに関する事前の知識が存在する場合、$(s,a)$-rectangularityと$d$-rectangularityに基づく従来のモデルと比較して、この新フレームワークは不確実性のより洗練された表現を提供することを示す。
本稿では,一般の$f$$-divergenceの定義した不確実性セットを用いたリニアミックスDRMDPにおけるロバストなポリシー学習のためのメタアルゴリズムを提案し,そのサンプルの複雑さを,全変量,Kulback-Leibler,および$\chi^2$の発散率の3つの発散量で解析する。
これらの結果は、線形混合DRMDPの統計的学習可能性を確立し、この新設定に関する将来の研究の理論的基礎を築いた。
関連論文リスト
- Robust Offline Reinforcement Learning for Non-Markovian Decision Processes [48.9399496805422]
本研究では,ロバストな非マルコフRLの学習問題について検討する。
本研究では,不確実性セットの異なるタイプ下でのロバストな値に対して,新しいデータセット蒸留と低信頼境界(LCB)設計を導入する。
さらに、オフラインの低ランク非マルコフ決定プロセスに適した新しいI型集中係数を導入することにより、我々のアルゴリズムが$epsilon$-optimal robust policyを見つけることができることを証明した。
論文 参考訳(メタデータ) (2024-11-12T03:22:56Z) - Towards Understanding Variants of Invariant Risk Minimization through the Lens of Calibration [0.6906005491572401]
本稿では,Information BottleneckをベースとしたITMが,異なる環境における一貫したキャリブレーションを実現することを示す。
私たちの経験的証拠は、環境全体にわたって一貫した校正を示すモデルも十分に校正されていることを示している。
論文 参考訳(メタデータ) (2024-01-31T02:08:43Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity [7.57543767554282]
本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度と若干異なる方法でリスクを評価する。
両問題に対してポリシー勾配定理を導出し、厳密なポリシー勾配法の勾配支配と大域収束を証明した。
また、サンプルベースのオフライン学習アルゴリズム、すなわちロバスト適応Z反復(RFZI)を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:51:25Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - The Risks of Invariant Risk Minimization [52.7137956951533]
不変リスク最小化(Invariant Risk Minimization)は、データの深い不変性を学ぶという考え方に基づく目標である。
我々は、IRMの目的に基づく分類の最初の分析と、最近提案されたこれらの代替案について、かなり自然で一般的なモデルで分析する。
IRMは、テストデータがトレーニング分布と十分に類似していない限り、破滅的に失敗する可能性がある。
論文 参考訳(メタデータ) (2020-10-12T14:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。