論文の概要: Active learning for distributionally robust level-set estimation
- arxiv url: http://arxiv.org/abs/2102.04000v1
- Date: Mon, 8 Feb 2021 04:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 16:01:53.561903
- Title: Active learning for distributionally robust level-set estimation
- Title(参考訳): 分布ロバストなレベルセット推定のためのアクティブラーニング
- Authors: Yu Inatsu, Shogo Iwazaki, Ichiro Takeuchi
- Abstract要約: 評価コストの高いブラックボックス関数 $f$ が 2 種類の変数 $bm x$ と $bm w$ に依存することを示す。
頑健性の自然な測度は、$f(bm x, bm w)$が与えられた閾値$h$を超える確率である。
本稿では,この問題に対する理論的基礎と計算学的に効率的な能動学習法を提案する。
- 参考スコア(独自算出の注目度): 16.869069414080847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many cases exist in which a black-box function $f$ with high evaluation cost
depends on two types of variables $\bm x$ and $\bm w$, where $\bm x$ is a
controllable \emph{design} variable and $\bm w$ are uncontrollable
\emph{environmental} variables that have random variation following a certain
distribution $P$. In such cases, an important task is to find the range of
design variables $\bm x$ such that the function $f(\bm x, \bm w)$ has the
desired properties by incorporating the random variation of the environmental
variables $\bm w$. A natural measure of robustness is the probability that
$f(\bm x, \bm w)$ exceeds a given threshold $h$, which is known as the
\emph{probability threshold robustness} (PTR) measure in the literature on
robust optimization. However, this robustness measure cannot be correctly
evaluated when the distribution $P$ is unknown. In this study, we addressed
this problem by considering the \textit{distributionally robust PTR} (DRPTR)
measure, which considers the worst-case PTR within given candidate
distributions. Specifically, we studied the problem of efficiently identifying
a reliable set $H$, which is defined as a region in which the DRPTR measure
exceeds a certain desired probability $\alpha$, which can be interpreted as a
level set estimation (LSE) problem for DRPTR. We propose a theoretically
grounded and computationally efficient active learning method for this problem.
We show that the proposed method has theoretical guarantees on convergence and
accuracy, and confirmed through numerical experiments that the proposed method
outperforms existing methods.
- Abstract(参考訳): 評価コストの高いブラックボックス関数 $f$ は、2種類の変数 $\bm x$ と $\bm w$ に依存しており、$\bm x$ は制御可能な \emph{design} 変数であり、$\bm w$ は制御不能な \emph{environmental} 変数であり、特定の分布に従えばランダムな変動を持つ変数である。
このような場合、重要なタスクは、環境変数 $\bm w$ のランダムな変動を組み込むことにより、関数 $f(\bm x, \bm w)$ が所望の性質を持つような設計変数 $\bm x$ の範囲を見つけることである。
堅牢性の自然な測度は、$f(\bm x, \bm w)$ が与えられたしきい値 $h$ を超える確率であり、これは堅牢最適化に関する文献における \emph{probability threshold robustness} (PTR) 測度として知られている。
しかし、このロバストネス測度は、分布が$P$が未知であるときに正しく評価できない。
本研究では,各候補分布における最悪のPTRを考慮したDRPTR(textit{distributionally robust PTR})測度を考慮し,この問題に対処する。
具体的には、DRPTR測度が所望の確率 $\alpha$ を超える領域として定義される信頼できる集合 $H$ を効率的に特定する問題を研究し、DRPTR のレベルセット推定 (LSE) 問題として解釈することができた。
本稿では,この問題に対する理論的根拠と計算効率のよいアクティブラーニング手法を提案する。
提案手法は収束と精度を理論的に保証し,提案手法が既存の手法よりも優れていることを数値実験により確認した。
関連論文リスト
- Computing Optimal Manipulations in Cryptographic Self-Selection Proof-of-Stake Protocols [3.3139913966251227]
任意の所望の$(alpha,beta)$に対して$f(alpha,beta)$を任意の精度まで確実に釘付けする方法を開発する。
技術的課題の1つは、対象分布の平均値の自然サンプリングに基づく推定は、偏りのない推定値であるということである。
論文 参考訳(メタデータ) (2024-06-21T16:20:39Z) - Robust Distribution Learning with Local and Global Adversarial Corruptions [17.22168727622332]
誤差を$sqrtvarepsilon k + rho + tildeO(dsqrtkn-1/(k lor2)$で有界な共分散を持つ場合、効率的な有限サンプルアルゴリズムを開発する。
我々の効率的な手順は、理想的だが難解な2-ワッサーシュタイン射影推定器の新たなトレースノルム近似に依存する。
論文 参考訳(メタデータ) (2024-06-10T17:48:36Z) - Testing Dependency of Unlabeled Databases [5.384630221560811]
2つのランダムデータベース $mathsfXinmathcalXntimes d$ と $mathsfYinmathcalYntimes d$ は統計的に依存するかどうかによって異なる。
最適テストが情報理論上不可能かつ可能なしきい値の特徴付けを行う。
論文 参考訳(メタデータ) (2023-11-10T05:17:03Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Restarted Bayesian Online Change-point Detection for Non-Stationary
Markov Decision Processes [12.229154524476405]
我々は、Restarted Bayesian Online Change-Point Detectionアルゴリズム(R-BOCPD)の変種を導入する。
多項分布から標本化された状態遷移カーネルを用いたMPP用UCRL2アルゴリズムの改良版を提案する。
我々は,R-BOCPD-UCRL2が$Oleft(D O sqrtA T K_T logleft (fracTdelta right) + fracK_Tdeltaminlimits_ell の好意的な後悔境界を享受していることを示す。
論文 参考訳(メタデータ) (2023-04-01T05:26:41Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - List-Decodable Mean Estimation in Nearly-PCA Time [50.79691056481693]
高次元におけるリストデコタブル平均推定の基本的な課題について検討する。
我々のアルゴリズムは、すべての$k = O(sqrtd) cup Omega(d)$に対して$widetildeO(ndk)$で実行されます。
我々のアルゴリズムの変種は、すべての$k$に対してランタイム$widetildeO(ndk)$を持ち、リカバリ保証の$O(sqrtlog k)$ Factorを犠牲にしている。
論文 参考訳(メタデータ) (2020-11-19T17:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。