論文の概要: Marginalized Operators for Off-policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.16177v1
- Date: Wed, 30 Mar 2022 09:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:53:06.127939
- Title: Marginalized Operators for Off-policy Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのマルガナライズド演算子
- Authors: Yunhao Tang, Mark Rowland, R\'emi Munos, Michal Valko
- Abstract要約: 有理化作用素は、Retraceのような一般的な多段階作用素を特別な場合として厳密に一般化する。
余剰化演算子の推定値がスケーラブルな方法で計算可能であることを示し、また、余剰化重要度サンプリングの事前結果を特別な場合として一般化する。
- 参考スコア(独自算出の注目度): 53.37381513736073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose marginalized operators, a new class of off-policy
evaluation operators for reinforcement learning. Marginalized operators
strictly generalize generic multi-step operators, such as Retrace, as special
cases. Marginalized operators also suggest a form of sample-based estimates
with potential variance reduction, compared to sample-based estimates of the
original multi-step operators. We show that the estimates for marginalized
operators can be computed in a scalable way, which also generalizes prior
results on marginalized importance sampling as special cases. Finally, we
empirically demonstrate that marginalized operators provide performance gains
to off-policy evaluation and downstream policy optimization algorithms.
- Abstract(参考訳): そこで本研究では,強化学習のための新しいオフポリシー評価演算子であるmarginalized operatorを提案する。
マージン化演算子は、retraceのような一般的なマルチステップ演算子を特別なケースとして厳密に一般化する。
マージン化演算子は、元のマルチステップ演算子のサンプルベース推定と比較して、潜在的な分散低減を伴うサンプルベース推定の形式も提案している。
境界化演算子の見積もりをスケーラブルに計算できることを示し,特別な場合として限界化重要度サンプリングの事前結果を一般化する。
最後に、極小化演算子がオフ・ポリティクス評価および下流ポリシー最適化アルゴリズムの性能向上を実証的に示す。
関連論文リスト
- Consistent Long-Term Forecasting of Ergodic Dynamical Systems [25.46655692714755]
エルゴード力学系の作用による分布の進化について検討する。
クープマンと転送作用素理論のツールを利用することで、状態の初期分布を時間内に発展させることができる。
演算子理論から固有値デフレの古典的手法と統計から中心となる特徴を巧みに組み合わせた学習パラダイムを導入する。
論文 参考訳(メタデータ) (2023-12-20T21:12:19Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Learning Dynamical Systems via Koopman Operator Regression in
Reproducing Kernel Hilbert Spaces [52.35063796758121]
動的システムの有限データ軌跡からクープマン作用素を学ぶためのフレームワークを定式化する。
リスクとクープマン作用素のスペクトル分解の推定を関連付ける。
以上の結果から,RRRは他の広く用いられている推定値よりも有益である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-27T14:57:48Z) - Surprise Minimization Revision Operators [7.99536002595393]
本稿では, 先行する信念に関して, 相対的サプライズ(相対的サプライズ)とよばれるサプライズ尺度を提案する。
そこで我々は,AGMモールドの直感的な仮定を用いて定義したサプライズ最小化修正演算子を特徴付ける。
論文 参考訳(メタデータ) (2021-11-21T20:38:50Z) - Operator Augmentation for Model-based Policy Evaluation [1.503974529275767]
モデルに基づく強化学習では、遷移行列と報酬ベクトルはしばしばノイズを受けるランダムサンプルから推定される。
本稿では,推定モデルによる誤差を低減する演算子拡張手法を提案する。
論文 参考訳(メタデータ) (2021-10-25T05:58:49Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - The Expected Jacobian Outerproduct: Theory and Empirics [3.172761915061083]
本研究では, 実世界の非パラメトリック分類タスクを改善するために, 期待されるジャコビアン外積 (EJOP) を指標として用いることができることを示す。
また、推定されたEJOPは、メトリック学習タスクを改善するためにメートル法として使用できることを示す。
論文 参考訳(メタデータ) (2020-06-05T16:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。