論文の概要: Active Subsampling for Measurement-Constrained M-Estimation of Individualized Thresholds with High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2411.13763v1
- Date: Thu, 21 Nov 2024 00:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:18:17.430673
- Title: Active Subsampling for Measurement-Constrained M-Estimation of Individualized Thresholds with High-Dimensional Data
- Title(参考訳): 高次元データを用いた個別閾値の計測制約付きM値推定のためのアクティブサブサンプリング
- Authors: Jingyi Duan, Yang Ning,
- Abstract要約: 測定制約のある問題では、大きなデータセットが利用可能であるにもかかわらず、大きなデータセットのごく一部でラベルを観測するのに手頃な価格にしかならない。
このことは、どのデータポイントが予算制約のあるラベルに最も有益であるかという重要な疑問を引き起こします。
本稿では,測定制約付きM推定フレームワークにおける最適個別化しきい値の推定に焦点をあてる。
- 参考スコア(独自算出の注目度): 3.1138411427556445
- License:
- Abstract: In the measurement-constrained problems, despite the availability of large datasets, we may be only affordable to observe the labels on a small portion of the large dataset. This poses a critical question that which data points are most beneficial to label given a budget constraint. In this paper, we focus on the estimation of the optimal individualized threshold in a measurement-constrained M-estimation framework. Our goal is to estimate a high-dimensional parameter $\theta$ in a linear threshold $\theta^T Z$ for a continuous variable $X$ such that the discrepancy between whether $X$ exceeds the threshold $\theta^T Z$ and a binary outcome $Y$ is minimized. We propose a novel $K$-step active subsampling algorithm to estimate $\theta$, which iteratively samples the most informative observations and solves a regularized M-estimator. The theoretical properties of our estimator demonstrate a phase transition phenomenon with respect to $\beta\geq 1$, the smoothness of the conditional density of $X$ given $Y$ and $Z$. For $\beta>(1+\sqrt{3})/2$, we show that the two-step algorithm yields an estimator with the parametric convergence rate $O_p((s \log d /N)^{1/2})$ in $l_2$ norm. The rate of our estimator is strictly faster than the minimax optimal rate with $N$ i.i.d. samples drawn from the population. For the other two scenarios $1<\beta\leq (1+\sqrt{3})/2$ and $\beta=1$, the estimator from the two-step algorithm is sub-optimal. The former requires to run $K>2$ steps to attain the same parametric rate, whereas in the latter case only a near parametric rate can be obtained. Furthermore, we formulate a minimax framework for the measurement-constrained M-estimation problem and prove that our estimator is minimax rate optimal up to a logarithmic factor. Finally, we demonstrate the performance of our method in simulation studies and apply the method to analyze a large diabetes dataset.
- Abstract(参考訳): 測定制約のある問題では、大きなデータセットが利用可能であるにもかかわらず、大きなデータセットのごく一部でラベルを観測するのに手頃な価格にしかならない。
これは、どのデータポイントが予算制約のあるラベルに最も有益であるかという重要な疑問を提起する。
本稿では,測定制約付きM推定フレームワークにおける最適個別化しきい値の推定に焦点をあてる。
我々のゴールは、線形しきい値$\theta^T Z$を連続変数$X$に対して高次元パラメータ$\theta^T Z$を推定することで、$X$がしきい値$\theta^T Z$を超えるかどうかの差を最小化することである。
そこで我々は,最も情報性の高い観測を反復的にサンプリングし,正規化されたM推定器を解く,新しい$K$-step 能動サブサンプリングアルゴリズムを提案する。
我々の推定器の理論的性質は、$\beta\geq 1$に対して相転移現象を示し、条件密度の滑らかさは$X$$$$Y$と$Z$である。
$\beta>(1+\sqrt{3})/2$ の場合、この2段階のアルゴリズムはパラメトリック収束率 $O_p((s \log d /N)^{1/2})$ in $l_2$ ノルムで推定する。
我々の推定器の速度は、人口から引き出されたサンプルである$N$i.d.でミニマックス最適速度よりも厳密に高速である。
他の2つのシナリオでは、$<\beta\leq (1+\sqrt{3})/2$と$\beta=1$に対して、2段階アルゴリズムからの推定器は準最適である。
前者は同じパラメトリックレートを達成するために$K>2$のステップを実行する必要があるが、後者の場合、ほぼパラメトリックレートしか取得できない。
さらに、測定制約付きM推定問題のミニマックスフレームワークを定式化し、この推定器が対数係数まで最適であることを示す。
最後に, シミュレーション研究における本手法の性能を実証し, 大規模糖尿病データセットの解析に応用する。
関連論文リスト
- Multiple-policy Evaluation via Density Estimation [30.914344538340412]
本稿では,この問題に対して$mathrmCAESAR$というアルゴリズムを提案する。
低次かつ対数的な$mathrmCAESAR$は、$tildeOleft(fracH4epsilon2sum_h=1Hmax_kin[K]sum_s,afrac(d_hpik(s,a))2mu*_h(s,a)right)$である。
論文 参考訳(メタデータ) (2024-03-29T23:55:25Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Memory Efficient And Minimax Distribution Estimation Under Wasserstein
Distance Using Bayesian Histograms [6.21295508577576]
例えば、$d 2v$の場合、ヒストグラムは特別なテキストメモリ効率特性を持ち、サンプルサイズが$nであるのに対して、$nd/2v$ binsはミニマックスレートの最適性を得るために必要であることを示す。
達成されたメモリフットプリントは、既存のミニマックス最適手順を$n$の係数で克服する。例えば、ボレル確率測度クラスのミニマックス推定器である経験的測度と比較した場合、フットプリントを$n1 - d/2v$に削減する。
論文 参考訳(メタデータ) (2023-07-19T16:13:20Z) - Data Structures for Density Estimation [66.36971978162461]
p$のサブリニア数($n$)が与えられた場合、主な結果は$k$のサブリニアで$v_i$を識別する最初のデータ構造になります。
また、Acharyaなどのアルゴリズムの改良版も提供します。
論文 参考訳(メタデータ) (2023-06-20T06:13:56Z) - Robust Nonparametric Regression under Poisoning Attack [13.470899588917716]
敵攻撃者は、$N$のトレーニングデータセットから最大$q$のサンプル値を変更することができる。
初期解法はハマー損失最小化に基づくM推定器である。
最後の見積もりは、任意の$q$に対してほぼ最小値であり、最大$ln N$ factorまでである。
論文 参考訳(メタデータ) (2023-05-26T09:33:17Z) - Robust Sparse Mean Estimation via Incremental Learning [15.536082641659423]
そこで本研究では, 部分的に破損したサンプルの集合から, k$-sparse平均を推定することを目的とする, 頑健な平均推定問題について検討する。
両課題を適度な条件下で克服する簡易平均推定器を提案する。
私たちのメソッドは、スパーシティレベル$k$に関する事前の知識を必要としない。
論文 参考訳(メタデータ) (2023-05-24T16:02:28Z) - Estimating the minimizer and the minimum value of a regression function
under passive design [72.85024381807466]
最小値 $boldsymbolx*$ と最小値 $f*$ を滑らかで凸な回帰関数 $f$ で推定する新しい手法を提案する。
2次リスクと$boldsymbolz_n$の最適化誤差、および$f*$を推定するリスクについて、漸近的でない上界を導出する。
論文 参考訳(メタデータ) (2022-11-29T18:38:40Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Localization in 1D non-parametric latent space models from pairwise
affinities [6.982738885923206]
対の親和性から一次元トーラスにおける潜伏位置を推定する問題を考察する。
高確率でsqrtlog(n)/n$の順序の最大誤差で全ての潜伏位置を確実にローカライズする推定手順を導入する。
論文 参考訳(メタデータ) (2021-08-06T13:05:30Z) - Stochastic Shortest Path: Minimax, Parameter-Free and Towards
Horizon-Free Regret [144.6358229217845]
エージェントが目標状態に到達する前に蓄積される期待コストを最小限に抑えるために,最短経路(ssp)設定で学習する問題について検討する。
我々は,経験的遷移を慎重に歪曲し,探索ボーナスで経験的コストを摂動する新しいモデルベースアルゴリズムEB-SSPを設計する。
私達はEB-SSPが$widetildeO(B_star sqrtS A K)$のミニマックスの後悔率を達成することを証明します。
論文 参考訳(メタデータ) (2021-04-22T17:20:48Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。