論文の概要: Entropy Regularization for Population Estimation
- arxiv url: http://arxiv.org/abs/2208.11747v1
- Date: Wed, 24 Aug 2022 19:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:35:06.415748
- Title: Entropy Regularization for Population Estimation
- Title(参考訳): 人口推定のためのエントロピー正規化
- Authors: Ben Chugg, Peter Henderson, Jacob Goldin, Daniel E. Ho
- Abstract要約: 平均報酬推定タスクは、公共政策設定に不可欠であることが示されている。
エントロピーとKLのばらつきを活用することで、既存のベースラインよりも報酬と推定値のばらつきが良くなることを示す。
- 参考スコア(独自算出の注目度): 3.0175479520609887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entropy regularization is known to improve exploration in sequential
decision-making problems. We show that this same mechanism can also lead to
nearly unbiased and lower-variance estimates of the mean reward in the
optimize-and-estimate structured bandit setting. Mean reward estimation (i.e.,
population estimation) tasks have recently been shown to be essential for
public policy settings where legal constraints often require precise estimates
of population metrics. We show that leveraging entropy and KL divergence can
yield a better trade-off between reward and estimator variance than existing
baselines, all while remaining nearly unbiased. These properties of entropy
regularization illustrate an exciting potential for bridging the optimal
exploration and estimation literatures.
- Abstract(参考訳): エントロピー正規化は、逐次的な意思決定問題の探索を改善することで知られている。
また,この機構は,構造的バンディット設定における平均報酬の偏りやばらつきの小さい推定にもつながりうることを示した。
平均報酬推定(すなわち人口推定)タスクは、法的な制約がしばしば人口指標の正確な推定を必要とする公共政策設定に不可欠であることが最近示されている。
エントロピーとklの発散を利用することで、既存のベースラインよりも報酬と推定値のばらつきのトレードオフがより良好になる。
これらのエントロピー正則化の特性は、最適な探索と推定文献をブリッジするエキサイティングな可能性を示している。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Statistical Barriers to Affine-equivariant Estimation [10.077727846124633]
本研究では,ロバスト平均推定のためのアフィン同変推定器の定量的性能について検討する。
古典的推定器は定量的に準最適であるか、あるいは量的保証が欠如していることが分かる。
我々は、下界にほぼ一致する新しいアフィン同変推定器を構築する。
論文 参考訳(メタデータ) (2023-10-16T18:42:00Z) - Regions of Reliability in the Evaluation of Multivariate Probabilistic
Forecasts [73.33395097728128]
時系列予測評価のための適切なスコアリングルールに関する最初の体系的な有限サンプル研究を提供する。
本研究では, 地中構造と予測分布のいくつかの重要な相違点をテストするために, 総合的な総合的合成ベンチマークを用いて解析を行った。
論文 参考訳(メタデータ) (2023-04-19T17:38:42Z) - SOPE: Spectrum of Off-Policy Estimators [40.15700429288981]
終端がSISとISである推定器のスペクトルの存在を示す。
本研究は、ISとSISの偏りと分散のトレードオフにこのスペクトルの推定器を使用できるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-11-06T18:29:21Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Off-Policy Evaluation via the Regularized Lagrangian [110.28927184857478]
最近提案された分布補正推定(DICE)ファミリーは, 行動に依存しないデータを用いた非政治的評価において, 技術の現状を推し進めている。
本稿では,これらを線形プログラムの正規化ラグランジアンとして統一する。
双対解は、安定性と推定バイアスの間のトレードオフをナビゲートする際の柔軟性を向上し、一般的にはより優れた見積もりを提供する。
論文 参考訳(メタデータ) (2020-07-07T13:45:56Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。