論文の概要: An Empirical Evaluation of Posterior Sampling for Constrained
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.03596v1
- Date: Thu, 8 Sep 2022 06:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:20:36.367897
- Title: An Empirical Evaluation of Posterior Sampling for Constrained
Reinforcement Learning
- Title(参考訳): 拘束強化学習における後方サンプリングの実証評価
- Authors: Danil Provodin, Pratik Gajane, Mykola Pechenizkiy, Maurits Kaptein
- Abstract要約: 制約付き強化学習における効率的な探索のための後方サンプリング手法について検討する。
統計的により効率的で、実装が簡単で、計算コストが安い2つの単純なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.3449418475577595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a posterior sampling approach to efficient exploration in
constrained reinforcement learning. Alternatively to existing algorithms, we
propose two simple algorithms that are more efficient statistically, simpler to
implement and computationally cheaper. The first algorithm is based on a linear
formulation of CMDP, and the second algorithm leverages the saddle-point
formulation of CMDP. Our empirical results demonstrate that, despite its
simplicity, posterior sampling achieves state-of-the-art performance and, in
some cases, significantly outperforms optimistic algorithms.
- Abstract(参考訳): 制約付き強化学習における効率的な探索のための後方サンプリング手法について検討する。
既存のアルゴリズムに代えて,より効率的で,実装が簡単で,計算コストが安価である2つの単純なアルゴリズムを提案する。
第1のアルゴリズムはcmdpの線形定式化に基づいており,第2のアルゴリズムはcmdpの鞍点定式化を利用する。
実験の結果,後方サンプリングは単純ではあるが最先端の性能を達成し,場合によっては楽観的アルゴリズムを著しく上回っていることがわかった。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - PBES: PCA Based Exemplar Sampling Algorithm for Continual Learning [0.0]
本稿では、主成分分析(PCA)と中央値サンプリングに基づく新しい模範選択手法と、クラス増分学習の設定におけるニューラルネットワークトレーニング方式を提案する。
このアプローチは、データの異常値による落とし穴を回避し、さまざまなインクリメンタル機械学習モデルの実装と使用の両方が容易である。
論文 参考訳(メタデータ) (2023-12-14T21:27:38Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A)
行列を低主行列とスパース主行列の和に分解する。
論文 参考訳(メタデータ) (2023-07-12T03:48:26Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Reinforcement Learning with Unbiased Policy Evaluation and Linear
Function Approximation [11.345796608258434]
マルコフ決定プロセスを制御するためのシミュレーションベースのポリシーイテレーションの変種に対して,性能保証を提供する。
第一のアルゴリズムは最小二乗アプローチを伴い、各反復において、特徴ベクトルに関連する新しい重みの集合が少なくとも二乗によって得られる。
第2のアルゴリズムは、最小二乗解への勾配降下を数ステップ行う2段階の近似アルゴリズムを含む。
論文 参考訳(メタデータ) (2022-10-13T20:16:19Z) - Optimizing Objective Functions from Trained ReLU Neural Networks via
Sampling [0.0]
本稿では、ReLUアクティベーションを用いたトレーニングニューラルネットワークを最適化する、スケーラブルでサンプリングベースのアルゴリズムを提案する。
本稿ではまず,ReLUニューラルネットワークのピースワイズ線形構造を利用した反復アルゴリズムを提案する。
次に、各反復で計算されたLPソリューションの近傍を探索することで、このアプローチを拡張します。
論文 参考訳(メタデータ) (2022-05-27T18:35:48Z) - Dual Optimization for Kolmogorov Model Learning Using Enhanced Gradient
Descent [8.714458129632158]
コルモゴロフモデル(コルモゴロフモデル、英: Kolmogorov model、KM)は、確率変数の集合の基本的な確率構造を学ぶための解釈可能で予測可能な表現手法である。
正規化双対最適化と拡張勾配降下法(GD)を併用した計算スケーラブルなKM学習アルゴリズムを提案する。
提案したKM学習アルゴリズムを用いた論理的関係マイニングの精度は80%以上である。
論文 参考訳(メタデータ) (2021-07-11T10:33:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。