論文の概要: Efficient Duple Perturbation Robustness in Low-rank MDPs
- arxiv url: http://arxiv.org/abs/2404.08089v1
- Date: Thu, 11 Apr 2024 19:07:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:34:33.648129
- Title: Efficient Duple Perturbation Robustness in Low-rank MDPs
- Title(参考訳): 低速度MDPにおける2重摂動ロバスト性
- Authors: Yang Hu, Haitong Ma, Bo Dai, Na Li,
- Abstract要約: 低ランクマルコフ決定過程(MDP)における特徴ベクトルおよび因子ベクトルの摂動という二重頑健性を導入する。
新たなロバストな MDP の定式化は関数表現のビューと互換性があり、従って、大または連続な状態-作用空間を持つ実践的な RL 問題に自然に適用できる。
また、理論収束率を保証した証明可能な効率的で実用的なアルゴリズムがもたらされる。
- 参考スコア(独自算出の注目度): 14.53555781866821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pursuit of robustness has recently been a popular topic in reinforcement learning (RL) research, yet the existing methods generally suffer from efficiency issues that obstruct their real-world implementation. In this paper, we introduce duple perturbation robustness, i.e. perturbation on both the feature and factor vectors for low-rank Markov decision processes (MDPs), via a novel characterization of $(\xi,\eta)$-ambiguity sets. The novel robust MDP formulation is compatible with the function representation view, and therefore, is naturally applicable to practical RL problems with large or even continuous state-action spaces. Meanwhile, it also gives rise to a provably efficient and practical algorithm with theoretical convergence rate guarantee. Examples are designed to justify the new robustness concept, and algorithmic efficiency is supported by both theoretical bounds and numerical simulations.
- Abstract(参考訳): 近年、強化学習(RL)研究においてロバストネスの追求が話題となっているが、既存の手法は実世界の実践を妨げる効率上の問題に悩まされている。
本稿では,低ランクマルコフ決定過程(MDPs)における特徴ベクトルと因子ベクトルの両方に対する摂動の2重摂動ロバスト性を,$(\xi,\eta)$-ambiguity集合の新規な特徴付けにより導入する。
新たなロバストな MDP の定式化は関数表現のビューと互換性があり、従って、大または連続な状態-作用空間を持つ実践的な RL 問題に自然に適用できる。
一方、理論収束率を保証した証明可能な効率的で実用的なアルゴリズムがもたらされる。
例えば、新しいロバスト性の概念を正当化するために設計されており、アルゴリズムの効率は理論的境界と数値シミュレーションの両方によって支えられている。
関連論文リスト
- Tailed Low-Rank Matrix Factorization for Similarity Matrix Completion [14.542166904874147]
similarity Completion Matrixは多くの機械学習タスクの中核にある基本的なツールとして機能する。
この問題に対処するために、類似行列理論(SMC)法が提案されているが、それらは複雑である。
提案手法は,PSD特性を解析して推定プロセスを導出し,低ランク解を保証するために非低ランク正規化器を組み込む2つの新しい,スケーラブルで効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-29T04:27:23Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Efficient semidefinite-programming-based inference for binary and
multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。
一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文 参考訳(メタデータ) (2020-12-04T15:36:29Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。