論文の概要: Nonlinear Multi-objective Reinforcement Learning with Provable
Guarantees
- arxiv url: http://arxiv.org/abs/2311.02544v1
- Date: Sun, 5 Nov 2023 02:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:04:33.499554
- Title: Nonlinear Multi-objective Reinforcement Learning with Provable
Guarantees
- Title(参考訳): 証明可能な保証による非線形多目的強化学習
- Authors: Nianli Peng and Brandon Fain
- Abstract要約: RA-E3は、単目的または多目的決定プロセス(MDP)を解決するための証明可能な保証を持つアルゴリズムである
RA-E3は、スカラー報酬と線形選好でMDPを解決する古典的なE3アルゴリズムを拡張している。
- 参考スコア(独自算出の注目度): 1.6160052850279416
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We describe RA-E3 (Reward-Aware Explicit Explore or Exploit), an algorithm
with provable guarantees for solving a single or multi-objective Markov
Decision Process (MDP) where we want to maximize the expected value of a
nonlinear function over accumulated rewards. This allows us to model
fairness-aware welfare optimization for multi-objective reinforcement learning
as well as risk-aware reinforcement learning with nonlinear Von
Neumann-Morgenstern utility functions in the single objective setting. RA-E3
extends the classic E3 algorithm that solves MDPs with scalar rewards and
linear preferences. We first state a distinct reward-aware version of value
iteration that calculates a non-stationary policy that is approximately optimal
for a given model of the environment. This sub-procedure is based on an
extended form of Bellman optimality for nonlinear optimization that explicitly
considers time and current accumulated reward. We then describe how to use this
optimization procedure in a larger algorithm that must simultaneously learn a
model of the environment. The algorithm learns an approximately optimal policy
in time that depends polynomially on the MDP size, desired approximation, and
smoothness of the nonlinear function, and exponentially on the number of
objectives.
- Abstract(参考訳): RA-E3 (Reward-Aware Explicit Explore or Exploit) は単目的または多目的のマルコフ決定過程(MDP)を解くための証明可能な保証を持つアルゴリズムで、累積報酬よりも非線形関数の期待値を最大化する。
これにより,多目的強化学習のための公平性を考慮した福祉最適化や,非線形フォン・ノイマン・モーゲンステルンユーティリティ関数を用いたリスク対応強化学習を単一目的設定でモデル化することができる。
RA-E3は、スカラー報酬と線形選好でMDPを解決する古典的なE3アルゴリズムを拡張している。
まず、与えられた環境のモデルにほぼ最適である非定常ポリシーを計算する、価値反復の報酬認識バージョンを示す。
このサブプロデューサは、時間と現在の累積報酬を明示的に考慮した非線形最適化のためのベルマン最適化の拡張形式に基づいている。
次に、この最適化手順を、環境のモデルを同時に学習しなければならない大きなアルゴリズムで使う方法について述べる。
このアルゴリズムは、MDPのサイズ、所望の近似、非線形関数の滑らかさに多項式的に依存し、指数関数的に目的数に依存する、ほぼ最適なポリシーを時間内に学習する。
関連論文リスト
- Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Inference on Optimal Dynamic Policies via Softmax Approximation [27.396891119011215]
最適な治療体制に対するソフトマックスの簡単な近似は、真に最適な治療体制に対する妥当な推測を達成できることを示す。
我々の研究は、半パラメトリック推論と$g$-estimationの技法と適切な配列中央極限定理を組み合わせたものである。
論文 参考訳(メタデータ) (2023-03-08T07:42:47Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Sparse Bayesian Learning via Stepwise Regression [1.2691047660244335]
我々は、RMP(Relevance Matching Pursuit)と呼ばれるSBLのための座標加算アルゴリズムを提案する。
ノイズ分散パラメータがゼロになるにつれて、RMPはステップワイド回帰と驚くべき関係を示す。
ステップワイド回帰アルゴリズムの新たな保証を導き、RMPにも光を当てる。
論文 参考訳(メタデータ) (2021-06-11T00:20:27Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Stochastic Learning Approach to Binary Optimization for Optimal Design
of Experiments [0.0]
本稿では,偏微分方程式などの数学モデルによるベイズ逆問題に対する最適実験設計 (OED) のための二項最適化への新しいアプローチを提案する。
OEDユーティリティ関数、すなわち正規化された最適性勾配はベルヌーイ分布に対する期待の形で目的関数にキャストされる。
この目的を確率的最適化ルーチンを用いて最適な観測方針を求めることで解決する。
論文 参考訳(メタデータ) (2021-01-15T03:54:12Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。