論文の概要: Active learning for distributionally robust level-set estimation
- arxiv url: http://arxiv.org/abs/2102.04000v1
- Date: Mon, 8 Feb 2021 04:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 16:01:53.561903
- Title: Active learning for distributionally robust level-set estimation
- Title(参考訳): 分布ロバストなレベルセット推定のためのアクティブラーニング
- Authors: Yu Inatsu, Shogo Iwazaki, Ichiro Takeuchi
- Abstract要約: 評価コストの高いブラックボックス関数 $f$ が 2 種類の変数 $bm x$ と $bm w$ に依存することを示す。
頑健性の自然な測度は、$f(bm x, bm w)$が与えられた閾値$h$を超える確率である。
- 参考スコア(独自算出の注目度): 16.869069414080847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many cases exist in which a black-box function $f$ with high evaluation cost
depends on two types of variables $\bm x$ and $\bm w$, where $\bm x$ is a
controllable \emph{design} variable and $\bm w$ are uncontrollable
\emph{environmental} variables that have random variation following a certain
distribution $P$. In such cases, an important task is to find the range of
design variables $\bm x$ such that the function $f(\bm x, \bm w)$ has the
desired properties by incorporating the random variation of the environmental
variables $\bm w$. A natural measure of robustness is the probability that
$f(\bm x, \bm w)$ exceeds a given threshold $h$, which is known as the
\emph{probability threshold robustness} (PTR) measure in the literature on
robust optimization. However, this robustness measure cannot be correctly
evaluated when the distribution $P$ is unknown. In this study, we addressed
this problem by considering the \textit{distributionally robust PTR} (DRPTR)
measure, which considers the worst-case PTR within given candidate
distributions. Specifically, we studied the problem of efficiently identifying
a reliable set $H$, which is defined as a region in which the DRPTR measure
exceeds a certain desired probability $\alpha$, which can be interpreted as a
level set estimation (LSE) problem for DRPTR. We propose a theoretically
grounded and computationally efficient active learning method for this problem.
We show that the proposed method has theoretical guarantees on convergence and
accuracy, and confirmed through numerical experiments that the proposed method
outperforms existing methods.
- Abstract(参考訳): 評価コストの高いブラックボックス関数 $f$ は、2種類の変数 $\bm x$ と $\bm w$ に依存しており、$\bm x$ は制御可能な \emph{design} 変数であり、$\bm w$ は制御不能な \emph{environmental} 変数であり、特定の分布に従えばランダムな変動を持つ変数である。
このような場合、重要なタスクは、環境変数 $\bm w$ のランダムな変動を組み込むことにより、関数 $f(\bm x, \bm w)$ が所望の性質を持つような設計変数 $\bm x$ の範囲を見つけることである。
堅牢性の自然な測度は、$f(\bm x, \bm w)$ が与えられたしきい値 $h$ を超える確率であり、これは堅牢最適化に関する文献における \emph{probability threshold robustness} (PTR) 測度として知られている。
本研究では,各候補分布における最悪のPTRを考慮したDRPTR(textit{distributionally robust PTR})測度を考慮し,この問題に対処する。
具体的には、DRPTR測度が所望の確率 $\alpha$ を超える領域として定義される信頼できる集合 $H$ を効率的に特定する問題を研究し、DRPTR のレベルセット推定 (LSE) 問題として解釈することができた。
- Efficient Multivariate Robust Mean Estimation Under Mean-Shift Contamination [35.67742880001828]
提案アルゴリズムは, ほぼ最適サンプルの複雑性を持ち, サンプル・ポリノミカル時間で動作し, ターゲット平均を任意の精度で近似する。
論文 参考訳(メタデータ) (2025-02-20T17:53:13Z) - Computing Optimal Manipulations in Cryptographic Self-Selection Proof-of-Stake Protocols [3.3139913966251227]
論文 参考訳(メタデータ) (2024-06-21T16:20:39Z) - Robust Distribution Learning with Local and Global Adversarial Corruptions [17.22168727622332]
誤差を$sqrtvarepsilon k + rho + tildeO(dsqrtkn-1/(k lor2)$で有界な共分散を持つ場合、効率的な有限サンプルアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-06-10T17:48:36Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Restarted Bayesian Online Change-point Detection for Non-Stationary
Markov Decision Processes [12.229154524476405]
我々は、Restarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)の変種を導入する。
我々は,R-BOCPD-UCRL2が$Oleft(D O sqrtA T K_T logleft (fracTdelta right) + fracK_Tdeltaminlimits_ell の好意的な後悔境界を享受していることを示す。
論文 参考訳(メタデータ) (2023-04-01T05:26:41Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - List-Decodable Mean Estimation in Nearly-PCA Time [50.79691056481693]
我々のアルゴリズムは、すべての$k = O(sqrtd) cup Omega(d)$に対して$widetildeO(ndk)$で実行されます。
我々のアルゴリズムの変種は、すべての$k$に対してランタイム$widetildeO(ndk)$を持ち、リカバリ保証の$O(sqrtlog k)$ Factorを犠牲にしている。
論文 参考訳(メタデータ) (2020-11-19T17:21:37Z)