論文の概要: Learning to Stop with Surprisingly Few Samples
- arxiv url: http://arxiv.org/abs/2102.10025v2
- Date: Mon, 22 Feb 2021 04:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 11:33:27.356925
- Title: Learning to Stop with Surprisingly Few Samples
- Title(参考訳): 意外と少ないサンプルで止まることを学ぶ
- Authors: Daniel Russo, Assaf Zeevi, Tianyi Zhang
- Abstract要約: 我々は、無限の地平線最適停止問題を考える。
基礎となる分布が事前分布であるならば、この問題の解は動的プログラミングによって得られる。
この分布に関する情報が欠如している場合、自然な(素朴な)アプローチは "explore-then-exploit" である。
- 参考スコア(独自算出の注目度): 17.46537996825982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a discounted infinite horizon optimal stopping problem. If the
underlying distribution is known a priori, the solution of this problem is
obtained via dynamic programming (DP) and is given by a well known threshold
rule. When information on this distribution is lacking, a natural (though
naive) approach is "explore-then-exploit," whereby the unknown distribution or
its parameters are estimated over an initial exploration phase, and this
estimate is then used in the DP to determine actions over the residual
exploitation phase. We show: (i) with proper tuning, this approach leads to
performance comparable to the full information DP solution; and (ii) despite
common wisdom on the sensitivity of such "plug in" approaches in DP due to
propagation of estimation errors, a surprisingly "short" (logarithmic in the
horizon) exploration horizon suffices to obtain said performance. In cases
where the underlying distribution is heavy-tailed, these observations are even
more pronounced: a ${\it single \, sample}$ exploration phase suffices.
- Abstract(参考訳): 我々は、無限の地平線最適停止問題を考える。
根底にある分布が事前に知られている場合、この問題の解は動的プログラミング(DP)を介して得られ、よく知られたしきい値の規則によって与えられる。
この分布に関する情報が欠如している場合、自然(素朴な)アプローチは「探索と探索」(explore-then-exploit)であり、未知の分布またはそのパラメータが初期探索段階にわたって推定され、この推定はDPで残存搾取段階に対する行動を決定するのに用いられる。
i)適切なチューニングを行うと、この手法はフルインフォメーションdpソリューションに匹敵するパフォーマンスをもたらす。(ii) 推定誤差の伝播によるdpにおけるこのような「プラグイン」アプローチの感度に関する一般的な知識にもかかわらず、驚くほどの「短い」(地平線の対数)探索地平線が、そのパフォーマンスを得るために十分である。
根底にある分布が重尾な場合、これらの観測はより顕著である:${\it single \, sample}$ 探索位相は十分である。
関連論文リスト
- An Improved Algorithm for Learning Drifting Discrete Distributions [2.2191203337341525]
分散ドリフト下で離散分布を学習するための新しい適応アルゴリズムを提案する。
時間とともに変化する離散分布から独立したサンプルの列を観察し、その目標は現在の分布を推定することである。
より多くのサンプルを使用するには、過去にさらにサンプルに頼らなければならず、分布の変化によって生じるバイアスによりドリフトエラーが発生する。
ドリフトに関する事前の知識を必要とせずにこのトレードオフを解くことができる新しい適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-08T16:54:27Z) - Estimation Beyond Data Reweighting: Kernel Method of Moments [9.845144212844662]
モーメントのカーネル法(KMM)と呼ばれる最大平均誤差に基づく経験的確率推定器を提供する。
条件付きモーメント制限タスクにおいて,本手法が競合性能を達成することを示す。
論文 参考訳(メタデータ) (2023-05-18T11:52:43Z) - Posterior-Variance-Based Error Quantification for Inverse Problems in Imaging [8.510101522152231]
提案手法は, 後方分散の推定と共形予測の手法を用いる。
また、後部からの近似サンプリングのみが可能な場合にも、カバレッジ保証を得ることができる。
論文で示された複数の正則化アプローチによる実験は、実際に得られた誤差境界がかなり厳密であることを確認した。
論文 参考訳(メタデータ) (2022-12-23T17:45:38Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - On the Pitfalls of Heteroscedastic Uncertainty Estimation with
Probabilistic Neural Networks [23.502721524477444]
このアプローチがいかにして非常に貧弱だが安定な推定に繋がるかを示す合成例を示す。
問題を悪化させる特定の条件とともに、犯人をログライクな損失とみなす。
我々は、損失に対する各データポイントの寄与を、$beta$-exponentiated variance estimateによって重み付けする、$beta$-NLLと呼ばれる別の定式化を提案する。
論文 参考訳(メタデータ) (2022-03-17T08:46:17Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。