論文の概要: Operator Augmentation for Model-based Policy Evaluation
- arxiv url: http://arxiv.org/abs/2110.12658v1
- Date: Mon, 25 Oct 2021 05:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 04:36:57.804021
- Title: Operator Augmentation for Model-based Policy Evaluation
- Title(参考訳): モデルに基づく政策評価のためのオペレータ拡張
- Authors: Xun Tang, Lexing Ying, Yuhua Zhu
- Abstract要約: モデルに基づく強化学習では、遷移行列と報酬ベクトルはしばしばノイズを受けるランダムサンプルから推定される。
本稿では,推定モデルによる誤差を低減する演算子拡張手法を提案する。
- 参考スコア(独自算出の注目度): 1.503974529275767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In model-based reinforcement learning, the transition matrix and reward
vector are often estimated from random samples subject to noise. Even if the
estimated model is an unbiased estimate of the true underlying model, the value
function computed from the estimated model is biased. We introduce an operator
augmentation method for reducing the error introduced by the estimated model.
When the error is in the residual norm, we prove that the augmentation factor
is always positive and upper bounded by $1 + O (1/n)$, where n is the number of
samples used in learning each row of the transition matrix. We also propose a
practical numerical algorithm for implementing the operator augmentation.
- Abstract(参考訳): モデルに基づく強化学習では、遷移行列と報酬ベクトルはしばしばノイズを受けるランダムサンプルから推定される。
推定モデルが真の基礎モデルの偏りのない推定値であっても、推定モデルから計算された値関数は偏りがある。
本稿では,推定モデルによる誤差を低減する演算子拡張手法を提案する。
誤差が残差ノルムにあるとき、加法因子は常に正であり、1 + o (1/n)$ で上限が上限であることを証明し、ここで n は遷移行列の各行を学習するのに使われるサンプルの数である。
また,演算子拡張を実現するための実用的な数値アルゴリズムを提案する。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Multiply Robust Estimator Circumvents Hyperparameter Tuning of Neural
Network Models in Causal Inference [0.0]
乗算ロバスト (MR) 推定器は1つの推定器で全ての第一段階モデルを活用できる。
MR は方程式の幅広いクラスの解であり、処理モデルの一つが $sqrtn$ consistent であれば一貫した値であることを示す。
論文 参考訳(メタデータ) (2023-07-20T02:31:12Z) - Efficient Truncated Linear Regression with Unknown Noise Variance [26.870279729431328]
雑音のばらつきが不明な場合に, 線形回帰の計算的, 統計的に効率的な推定器を提案する。
提案手法は, トランキャット標本の負の類似度に対して, プロジェクテッド・グラディエント・ディフレッシュを効果的に実装することに基づく。
論文 参考訳(メタデータ) (2022-08-25T12:17:37Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - Performance of Bayesian linear regression in a model with mismatch [8.60118148262922]
本研究では,ガウス先行の対数対数対のベイズ分布の平均値から得られる推定器の性能を解析した。
この推論モデルは、スピングラスにおけるガードナーモデルのバージョンとして記述することができる。
論文 参考訳(メタデータ) (2021-07-14T18:50:13Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文 参考訳(メタデータ) (2020-11-18T09:00:44Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Low-Rank Matrix Estimation From Rank-One Projections by Unlifted Convex
Optimization [9.492903649862761]
階数1の投影から低階行列を復元するための定式化凸を用いた推定器について検討した。
両モデルにおいて、測定値が$r2 (d+d_$2)以上の場合、推定器は高い確率で成功することを示す。
論文 参考訳(メタデータ) (2020-04-06T14:57:54Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。