論文の概要: Double Clipping: Less-Biased Variance Reduction in Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2309.01120v1
- Date: Sun, 3 Sep 2023 09:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 21:22:59.600564
- Title: Double Clipping: Less-Biased Variance Reduction in Off-Policy Evaluation
- Title(参考訳): ダブルクリッピング:オフ・ポリティ・アセスメントにおける低バイアス可変化
- Authors: Jan Malte Lichtenberg, Alexander Buchholz, Giuseppe Di Benedetto,
Matteo Ruffini, Ben London
- Abstract要約: クライッピング(Clipping、重要重量減量)は、オフ・ポリティクス推定器において広く用いられている分散還元法である。
我々は、この下降バイアスを補償し、全体的なバイアスを減らすことを目的とした、$textitdouble clipping$と呼ばれる単純な拡張を提案する。
- 参考スコア(独自算出の注目度): 43.9119476776119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Clipping" (a.k.a. importance weight truncation) is a widely used
variance-reduction technique for counterfactual off-policy estimators. Like
other variance-reduction techniques, clipping reduces variance at the cost of
increased bias. However, unlike other techniques, the bias introduced by
clipping is always a downward bias (assuming non-negative rewards), yielding a
lower bound on the true expected reward. In this work we propose a simple
extension, called $\textit{double clipping}$, which aims to compensate this
downward bias and thus reduce the overall bias, while maintaining the variance
reduction properties of the original estimator.
- Abstract(参考訳): クリッピング(Clipping、重要重量減量)は、反ファクトリアルなオフ・ポリティクス推定器において広く用いられている分散還元技術である。
他の分散還元法と同様に、クリッピングはバイアスの増加による分散を低減する。
しかし、他の手法とは異なり、クリッピングによって引き起こされるバイアスは常に下向きのバイアスであり(非負の報酬を仮定すると)、真の期待される報酬に下限をもたらす。
そこで本研究では,この下方偏りを補償し,偏りを減らすことを目的とした,$\textit{double clipping}$という簡単な拡張を提案し,元の推定器の分散低減特性を維持した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - KTO: Model Alignment as Prospect Theoretic Optimization [67.44320255397506]
Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。
人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。
そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:53:36Z) - U-Statistics for Importance-Weighted Variational Inference [29.750633016889655]
重要重み付き変分推論における推定のばらつきを低減するために,U-statisticsを用いた手法を提案する。
実験により,U-Statistic variance reduction(U-Statistic variance)の低減は,モデルの範囲での推論性能の大幅な改善につながることが確認された。
論文 参考訳(メタデータ) (2023-02-27T16:08:43Z) - Partial advantage estimator for proximal policy optimization [0.0]
Generalized Advantage Estimation (GAE) は、$lambda$-returnのような利点関数の指数的に重み付けされた推定器である。
現実的な応用では、軌道の不完全性により切り離されたGAEが使われ、推定時に大きなバイアスが生じる。
本稿では,不完全な軌道の偏りを著しく低減する更新計算において,その一部を取ることを提案する。
論文 参考訳(メタデータ) (2023-01-26T03:42:39Z) - Benefits of Permutation-Equivariance in Auction Mechanisms [90.42990121652956]
競売人の収益を最大化しつつ、競売人の過去の後悔を最小限にする競売メカニズムは、経済学において重要であるが複雑な問題である。
ニューラルネットワークによる最適なオークションメカニズムの学習を通じて、注目すべき進歩が達成されている。
論文 参考訳(メタデータ) (2022-10-11T16:13:25Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。
条件付き推定は必然的に既約誤差を生じさせることを示す。
経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2022-06-21T17:46:35Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - On lower bounds for the bias-variance trade-off [0.0]
高次元統計モデルでは、速度-最適推定器は二乗バイアスと分散のバランスをとるのが一般的である。
本稿では, 既定境界よりも小さい偏差を持つ任意の推定器の分散に関する下限を求める一般戦略を提案する。
これは、バイアス分散トレードオフがどの程度避けられないかを示し、従わないメソッドのパフォーマンスの損失を定量化することができる。
論文 参考訳(メタデータ) (2020-05-30T14:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。