論文の概要: Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return
- arxiv url: http://arxiv.org/abs/2311.02544v3
- Date: Wed, 25 Sep 2024 18:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:50:02.495362
- Title: Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return
- Title(参考訳): 非線形選好を用いた多目的強化学習:期待されるスカラーリターンの最大化のための確率近似
- Authors: Nianli Peng, Muhang Tian, Brandon Fain,
- Abstract要約: 軌道上の非線形選好を用いた多目的強化学習について検討した。
非線形最適化のためのベルマン最適性の拡張形式を導出する。
アルゴリズムによって計算される最適ポリシーと代替基準との間には,かなりのギャップがあることが示される。
- 参考スコア(独自算出の注目度): 1.3162012586770577
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study multi-objective reinforcement learning with nonlinear preferences over trajectories. That is, we maximize the expected value of a nonlinear function over accumulated rewards (expected scalarized return or ESR) in a multi-objective Markov Decision Process (MOMDP). We derive an extended form of Bellman optimality for nonlinear optimization that explicitly considers time and current accumulated reward. Using this formulation, we describe an approximation algorithm for computing an approximately optimal non-stationary policy in pseudopolynomial time for smooth scalarization functions with a constant number of rewards. We prove the approximation analytically and demonstrate the algorithm experimentally, showing that there can be a substantial gap between the optimal policy computed by our algorithm and alternative baselines.
- Abstract(参考訳): 軌道上の非線形選好を用いた多目的強化学習について検討した。
すなわち、多目的マルコフ決定過程(MOMDP)において、累積報酬(予測スカラー化リターンまたはESR)よりも非線形関数の期待値を最大化する。
我々は、時間と現在の累積報酬を明示的に考慮した非線形最適化のためのベルマン最適性の拡張形式を導出する。
この定式化を用いて,一定数の報酬を持つ滑らかなスキャラライゼーション関数に対して,擬ポリノミカル時間でほぼ最適な非定常ポリシーを計算するための近似アルゴリズムを記述する。
この近似を解析的に証明し,そのアルゴリズムを実験的に実証し,アルゴリズムが計算する最適方針と代替基準との間に大きなギャップがあることを証明した。
関連論文リスト
- Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Inference on Optimal Dynamic Policies via Softmax Approximation [27.396891119011215]
最適な治療体制に対するソフトマックスの簡単な近似は、真に最適な治療体制に対する妥当な推測を達成できることを示す。
我々の研究は、半パラメトリック推論と$g$-estimationの技法と適切な配列中央極限定理を組み合わせたものである。
論文 参考訳(メタデータ) (2023-03-08T07:42:47Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Sparse Bayesian Learning via Stepwise Regression [1.2691047660244335]
我々は、RMP(Relevance Matching Pursuit)と呼ばれるSBLのための座標加算アルゴリズムを提案する。
ノイズ分散パラメータがゼロになるにつれて、RMPはステップワイド回帰と驚くべき関係を示す。
ステップワイド回帰アルゴリズムの新たな保証を導き、RMPにも光を当てる。
論文 参考訳(メタデータ) (2021-06-11T00:20:27Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Stochastic Learning Approach to Binary Optimization for Optimal Design
of Experiments [0.0]
本稿では,偏微分方程式などの数学モデルによるベイズ逆問題に対する最適実験設計 (OED) のための二項最適化への新しいアプローチを提案する。
OEDユーティリティ関数、すなわち正規化された最適性勾配はベルヌーイ分布に対する期待の形で目的関数にキャストされる。
この目的を確率的最適化ルーチンを用いて最適な観測方針を求めることで解決する。
論文 参考訳(メタデータ) (2021-01-15T03:54:12Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。