Fugu-MT 論文翻訳(概要): Representation of Reinforcement Learning Policies in Reproducing Kernel Hilbert Spaces

論文の概要: Representation of Reinforcement Learning Policies in Reproducing Kernel Hilbert Spaces

arxiv url: http://arxiv.org/abs/2002.02863v2
Date: Thu, 15 Oct 2020 16:00:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-03 04:02:00.266959
Title: Representation of Reinforcement Learning Policies in Reproducing Kernel Hilbert Spaces
Title（参考訳）: カーネルヒルベルト空間における強化学習政策の表現
Authors: Bogdan Mazoure, Thang Doan, Tianyu Li, Vladimir Makarenkov, Joelle Pineau, Doina Precup, Guillaume Rabusseau
Abstract要約: このフレームワークは、カーネルヒルベルト空間(RKHS)上のポリシーの低次元埋め込みを見つけることを含む。我々は、再建された政策の復活を期待して、強い理論的保証を得る。その結果、低次元空間にロバストに埋め込むことができる一方で、組込みポリシはリターンの低下をほとんど起こさないことを確認した。
参考スコア（独自算出の注目度）: 72.5149277196468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a general framework for policy representation for reinforcement learning tasks. This framework involves finding a low-dimensional embedding of the policy on a reproducing kernel Hilbert space (RKHS). The usage of RKHS based methods allows us to derive strong theoretical guarantees on the expected return of the reconstructed policy. Such guarantees are typically lacking in black-box models, but are very desirable in tasks requiring stability. We conduct several experiments on classic RL domains. The results confirm that the policies can be robustly embedded in a low-dimensional space while the embedded policy incurs almost no decrease in return.
Abstract（参考訳）: 強化学習タスクのためのポリシー表現のための汎用フレームワークを提案する。このフレームワークは、再生されたカーネルヒルベルト空間(RKHS)にポリシーの低次元埋め込みを見つけることを含む。 RKHSに基づく手法を用いることで、再建された方針の復活を期待する理論的保証を得ることができる。このような保証はブラックボックスモデルには通常欠けているが、安定性を必要とするタスクでは非常に望ましい。古典的なRL領域についていくつかの実験を行う。その結果、ポリシーは低次元空間にロバストに埋め込まれるが、組み込みポリシーはほとんどリターンの低下を生じないことがわかった。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
A universal policy wrapper with guarantees [0.0]
強化学習エージェントのためのユニバーサルポリシーラッパーを導入する。我々のラッパーは、高性能ベースポリシーとフォールバックポリシーを選択的に切り替える。追加のシステム知識やオンライン制約付き最適化を必要としない。
論文参考訳（メタデータ） (2025-05-18T10:37:27Z)
SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本稿では,モデルフリーのエピソード設定において,新しいタスク固有ポリシーの安全性特性に違反する確率を限定した理論的結果を示す。また,タスク固有の性能と引き換えに安全保証を交換できるSPoRtを提案する。
論文参考訳（メタデータ） (2025-04-08T19:09:07Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文参考訳（メタデータ） (2024-11-05T09:55:50Z)
Compositional Policy Learning in Stochastic Control Systems with Formal Guarantees [0.0]
強化学習は複雑な制御タスクに対するニューラルネットワークポリシーの学習において有望な結果を示している。本研究では,環境におけるニューラルネットワークポリシーの構成を学習するための新しい手法を提案する。正式な証明書は、ポリシーの行動に関する仕様が望ましい確率で満たされていることを保証します。
論文参考訳（メタデータ） (2023-12-03T17:04:18Z)
Safe Reinforcement Learning in Tensor Reproducing Kernel Hilbert Space [9.823296458696882]
伝統的な部分的に観察可能なマルコフ決定プロセスでは、安全を確保するには、一般に潜伏状態の信念を推定する必要がある。本稿では,RLの安全性を,未知のシステム力学の面においてほぼ確実に保証するモデルに基づくアプローチを提案する。
論文参考訳（メタデータ） (2023-12-01T17:01:37Z)
Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文参考訳（メタデータ） (2023-11-15T13:16:16Z)
Feasible Policy Iteration for Safe Reinforcement Learning [29.662547846929847]
現実世界の制御問題に強化学習(RL)アルゴリズムを適用する場合、安全性が最優先事項である。安全なRLのための基本的な動的プログラミングアルゴリズムであるFPI(Fasible Policy iteration)を提案する。実験により,FPIは低次元タスクに対する厳密な制約違反を達成できることが示された。
論文参考訳（メタデータ） (2023-04-18T09:18:37Z)
Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文参考訳（メタデータ） (2022-10-03T14:57:46Z)
Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文参考訳（メタデータ） (2022-07-04T11:43:23Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Expert-Supervised Reinforcement Learning for Offline Policy Learning and Evaluation [21.703965401500913]
本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
論文参考訳（メタデータ） (2020-06-23T17:43:44Z)
Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。 textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文参考訳（メタデータ） (2020-03-21T00:10:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。