論文の概要: Representation of Reinforcement Learning Policies in Reproducing Kernel
Hilbert Spaces
- arxiv url: http://arxiv.org/abs/2002.02863v2
- Date: Thu, 15 Oct 2020 16:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:02:00.266959
- Title: Representation of Reinforcement Learning Policies in Reproducing Kernel
Hilbert Spaces
- Title(参考訳): カーネルヒルベルト空間における強化学習政策の表現
- Authors: Bogdan Mazoure, Thang Doan, Tianyu Li, Vladimir Makarenkov, Joelle
Pineau, Doina Precup, Guillaume Rabusseau
- Abstract要約: このフレームワークは、カーネルヒルベルト空間(RKHS)上のポリシーの低次元埋め込みを見つけることを含む。
我々は、再建された政策の復活を期待して、強い理論的保証を得る。
その結果、低次元空間にロバストに埋め込むことができる一方で、組込みポリシはリターンの低下をほとんど起こさないことを確認した。
- 参考スコア(独自算出の注目度): 72.5149277196468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a general framework for policy representation for reinforcement
learning tasks. This framework involves finding a low-dimensional embedding of
the policy on a reproducing kernel Hilbert space (RKHS). The usage of RKHS
based methods allows us to derive strong theoretical guarantees on the expected
return of the reconstructed policy. Such guarantees are typically lacking in
black-box models, but are very desirable in tasks requiring stability. We
conduct several experiments on classic RL domains. The results confirm that the
policies can be robustly embedded in a low-dimensional space while the embedded
policy incurs almost no decrease in return.
- Abstract(参考訳): 強化学習タスクのためのポリシー表現のための汎用フレームワークを提案する。
このフレームワークは、再生されたカーネルヒルベルト空間(RKHS)にポリシーの低次元埋め込みを見つけることを含む。
RKHSに基づく手法を用いることで、再建された方針の復活を期待する理論的保証を得ることができる。
このような保証はブラックボックスモデルには通常欠けているが、安定性を必要とするタスクでは非常に望ましい。
古典的なRL領域についていくつかの実験を行う。
その結果、ポリシーは低次元空間にロバストに埋め込まれるが、組み込みポリシーはほとんどリターンの低下を生じないことがわかった。
関連論文リスト
- Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。
本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Compositional Policy Learning in Stochastic Control Systems with Formal
Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。
本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。
正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文 参考訳(メタデータ) (2023-12-03T17:04:18Z) - Safe Reinforcement Learning in Tensor Reproducing Kernel Hilbert Space [9.823296458696882]
伝統的な部分的に観察可能なマルコフ決定プロセスでは、安全を確保するには、一般に潜伏状態の信念を推定する必要がある。
本稿では,RLの安全性を,未知のシステム力学の面においてほぼ確実に保証するモデルに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-01T17:01:37Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Expert-Supervised Reinforcement Learning for Offline Policy Learning and
Evaluation [21.703965401500913]
本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。
具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
論文 参考訳(メタデータ) (2020-06-23T17:43:44Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。