論文の概要: A maximum-entropy approach to off-policy evaluation in average-reward
MDPs
- arxiv url: http://arxiv.org/abs/2006.12620v1
- Date: Wed, 17 Jun 2020 18:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:23:57.114784
- Title: A maximum-entropy approach to off-policy evaluation in average-reward
MDPs
- Title(参考訳): 平均回帰MDPにおける外政評価への最大エントロピー的アプローチ
- Authors: Nevena Lazic, Dong Yin, Mehrdad Farajtabar, Nir Levine, Dilan Gorur,
Chris Harris, Dale Schuurmans
- Abstract要約: この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
- 参考スコア(独自算出の注目度): 54.967872716145656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on off-policy evaluation (OPE) with function approximation
in infinite-horizon undiscounted Markov decision processes (MDPs). For MDPs
that are ergodic and linear (i.e. where rewards and dynamics are linear in some
known features), we provide the first finite-sample OPE error bound, extending
existing results beyond the episodic and discounted cases. In a more general
setting, when the feature dynamics are approximately linear and for arbitrary
rewards, we propose a new approach for estimating stationary distributions with
function approximation. We formulate this problem as finding the
maximum-entropy distribution subject to matching feature expectations under
empirical dynamics. We show that this results in an exponential-family
distribution whose sufficient statistics are the features, paralleling
maximum-entropy approaches in supervised learning. We demonstrate the
effectiveness of the proposed OPE approaches in multiple environments.
- Abstract(参考訳): この研究は、無限水平無カウントマルコフ決定過程(MDPs)における関数近似を用いたオフ政治評価(OPE)に焦点を当てる。
エルゴード的かつ線形なMDP(例えば、いくつかの既知の特徴において報酬と力学が線型である)に対しては、最初の有限サンプル OPE エラーバウンドを提供し、エピソードおよび割引されたケースを超えて既存の結果を拡張する。
より一般的な設定では、特徴力学が概線型で任意の報酬を求めるとき、関数近似を用いて定常分布を推定するための新しいアプローチを提案する。
この問題を,実験的ダイナミクス下での特徴期待値の一致に基づく最大エントロピー分布を求めるために定式化する。
この結果から,教師付き学習における最大エントロピーアプローチと並行して,十分な統計量を持つ指数関数群分布が得られた。
複数の環境において提案するOPE手法の有効性を実証する。
関連論文リスト
- Maximum a Posteriori Estimation for Linear Structural Dynamics Models Using Bayesian Optimization with Rational Polynomial Chaos Expansions [0.01578888899297715]
本稿では,MAP推定のための既存のスパースベイズ学習手法の拡張を提案する。
ベイズ最適化手法を導入し,実験設計を適応的に強化する。
疎性誘導学習と実験設計を組み合わせることで,モデル評価の回数を効果的に削減する。
論文 参考訳(メタデータ) (2024-08-07T06:11:37Z) - Multi-objective Reinforcement Learning with Nonlinear Preferences: Provable Approximation for Maximizing Expected Scalarized Return [1.3162012586770577]
軌道上の非線形選好を用いた多目的強化学習について検討した。
非線形最適化のためのベルマン最適性の拡張形式を導出する。
アルゴリズムによって計算される最適ポリシーと代替基準との間には,かなりのギャップがあることが示される。
論文 参考訳(メタデータ) (2023-11-05T02:11:07Z) - Efficient expectation propagation for posterior approximation in
high-dimensional probit models [1.433758865948252]
ベイジアンプロビット回帰における後部分布の予測伝搬(EP)近似に着目した。
拡張多変量スキュー正規分布における結果の活用方法を示し,EPルーチンの効率的な実装を導出する。
これにより、EPは、詳細なシミュレーション研究で示されているように、高次元設定に挑戦する上でも実現可能である。
論文 参考訳(メタデータ) (2023-09-04T14:07:19Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency [83.02999769628593]
強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。
ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。
非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
論文 参考訳(メタデータ) (2021-02-05T03:20:39Z) - Distributed Stochastic Nonconvex Optimization and Learning based on
Successive Convex Approximation [26.11677569331688]
本稿では,ネットワーク内のエージェントの総和の分散アルゴリズム最小化のための新しいフレームワークを提案する。
提案手法は分散ニューラルネットワークに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-04-30T15:36:46Z) - Communication-Efficient Distributed Estimator for Generalized Linear
Models with a Diverging Number of Covariates [7.427903819459701]
2ラウンドの通信により,大規模分散データに対する効率の良い推定器を得る手法が提案されている。
本手法では,サーバ数に対する仮定をより緩和し,現実のアプリケーションに対して実用的である。
論文 参考訳(メタデータ) (2020-01-17T08:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。