論文の概要: Efficient Solution and Learning of Robust Factored MDPs
- arxiv url: http://arxiv.org/abs/2508.00707v1
- Date: Fri, 01 Aug 2025 15:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.931788
- Title: Efficient Solution and Learning of Robust Factored MDPs
- Title(参考訳): ロバスト因子MDPの効率的な解法と学習
- Authors: Yannik Schnitzer, Alessandro Abate, David Parker,
- Abstract要約: 未知の環境との相互作用からr-MDPを学習することで、性能保証による堅牢なポリシーの合成が可能になる。
本稿では,因子状態表現に基づくr-MDPの解法と学習法を提案する。
- 参考スコア(独自算出の注目度): 57.2416302384766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust Markov decision processes (r-MDPs) extend MDPs by explicitly modelling epistemic uncertainty about transition dynamics. Learning r-MDPs from interactions with an unknown environment enables the synthesis of robust policies with provable (PAC) guarantees on performance, but this can require a large number of sample interactions. We propose novel methods for solving and learning r-MDPs based on factored state-space representations that leverage the independence between model uncertainty across system components. Although policy synthesis for factored r-MDPs leads to hard, non-convex optimisation problems, we show how to reformulate these into tractable linear programs. Building on these, we also propose methods to learn factored model representations directly. Our experimental results show that exploiting factored structure can yield dimensional gains in sample efficiency, producing more effective robust policies with tighter performance guarantees than state-of-the-art methods.
- Abstract(参考訳): ロバスト・マルコフ決定過程(r-MDPs)は、遷移力学に関する疫学的な不確実性を明示的にモデル化することによって、MDPを拡張する。
未知の環境との相互作用からr-MDPを学習することで、証明可能な(PAC)保証による堅牢なポリシーの合成が可能になるが、多くのサンプルインタラクションが必要になる。
本稿では,システムコンポーネント間のモデル不確かさの独立性を生かした因子付き状態空間表現に基づくr-MDPの解法と学習法を提案する。
因子付きr-MDPのポリシー合成は困難で非凸最適化問題を引き起こすが、これらを抽出可能な線形プログラムに再構成する方法を示す。
また,これらに基づいて因子モデル表現を直接学習する手法を提案する。
実験結果から, 因子構造を応用すれば, 試料効率の次元ゲインが得られ, 最先端の手法よりも厳密な性能保証を施したロバストなポリシーが得られた。
関連論文リスト
- Efficient Strategy Synthesis for MDPs via Hierarchical Block Decomposition [47.123254940289726]
ソフトウェア製品ラインとロボティクスはマルコフ決定プロセス(MDP)を利用して不確実性を捉え、シーケンシャルな意思決定問題を解析する。
従来の政策合成法の有用性にもかかわらず、それらは大きな状態空間にスケールできない。
提案手法は, MDPを動的に精製し, 最も脆弱な MDP 領域を反復的に選択することにより, 大規模な MDP における政策合成を高速化する。
論文 参考訳(メタデータ) (2025-06-21T19:03:03Z) - Robust Counterfactual Inference in Markov Decision Processes [1.5197843979051473]
現在のアプローチでは、カウンターファクトを識別するために特定の因果モデルを想定している。
反実遷移確率の厳密な境界を計算できる新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T13:56:20Z) - Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization [15.898378661128334]
強化学習(RL)アルゴリズムは次元性の呪いに苦しむことが知られている。
本稿では,元のマルコフ決定過程(MDP)を,より小さく,独立に進化するMDPに大まかに分解することで,次元性の呪いを克服することを提案する。
提案手法は,両アルゴリズムに改良された複雑性保証を提供する。
論文 参考訳(メタデータ) (2024-11-12T07:08:00Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Robust Active Measuring under Model Uncertainty [11.087930299233278]
部分的可観測性と不確実性は、シーケンシャルな意思決定において一般的な問題である。
本稿では,RAM-MDPを効率よく解き,モデルの不確実性によりエージェントがより少ない測定を行えることを示す。
論文 参考訳(メタデータ) (2023-12-18T14:21:35Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。