論文の概要: Towards a statistical theory of data selection under weak supervision
- arxiv url: http://arxiv.org/abs/2309.14563v1
- Date: Mon, 25 Sep 2023 22:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 15:37:06.869529
- Title: Towards a statistical theory of data selection under weak supervision
- Title(参考訳): 弱い監督下でのデータ選択の統計理論に向けて
- Authors: Germain Kolossov, Andrea Montanari, Pulkit Tandon
- Abstract要約: サイズが$N$のサンプルが与えられた場合、統計的な推定や学習に使用される小さなサイズの$nN$のサブサンプルを選択するのが有用である。
我々は、ラベルのないサンプル$N$$bold x_i_ile N$を与えられると仮定し、ランダムな推測よりも$y_i$のラベルを予測できる代理モデルにアクセスできると仮定する。
- 参考スコア(独自算出の注目度): 7.540077751816086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a sample of size $N$, it is often useful to select a subsample of
smaller size $n<N$ to be used for statistical estimation or learning. Such a
data selection step is useful to reduce the requirements of data labeling and
the computational complexity of learning. We assume to be given $N$ unlabeled
samples $\{{\boldsymbol x}_i\}_{i\le N}$, and to be given access to a
`surrogate model' that can predict labels $y_i$ better than random guessing.
Our goal is to select a subset of the samples, to be denoted by $\{{\boldsymbol
x}_i\}_{i\in G}$, of size $|G|=n<N$. We then acquire labels for this set and we
use them to train a model via regularized empirical risk minimization.
By using a mixture of numerical experiments on real and synthetic data, and
mathematical derivations under low- and high- dimensional asymptotics, we show
that: $(i)$~Data selection can be very effective, in particular beating
training on the full sample in some cases; $(ii)$~Certain popular choices in
data selection methods (e.g. unbiased reweighted subsampling, or influence
function-based subsampling) can be substantially suboptimal.
- Abstract(参考訳): サイズが$n$の例を考えると、統計的な推定や学習に使用される小サイズの$n<n$のサブサンプルを選択することがしばしば有用である。
このようなデータ選択ステップは、データラベリングの要件と学習の計算複雑性を減らすのに有用である。
ラベル付けされていないサンプル$\{{\boldsymbol x}_i\}_{i\le N}$を$N$と仮定し、ランダムな推測よりも$y_i$のラベルを予測できる「代理モデル」へのアクセスを与える。
当社の目標は、サンプルのサブセットを$|g|=n<n$というサイズで$\{{\boldsymbol x}_i\}_{i\in g}$で指定することにあります。
次に、このセットのラベルを取得し、正規化された経験的リスク最小化によるモデルのトレーニングに使用します。
実データと合成データに関する数値実験と、低次元および高次元の漸近論に基づく数学的導出の混合を用いて、以下を示す。
(i)$~dataのセレクションは非常に効果的で、特にサンプル全体のトレーニングを打ち負かす場合があります。
(ii)$~あるデータ選択法(例えば、非バイアス付き再重み付きサブサンプリングや影響関数ベースのサブサンプリング)の一般的な選択は、実質的に準最適である。
関連論文リスト
- Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しい学習パラダイムを提案する。
我々のアプローチはまた、興味深いことに逆エントロピー最適輸送(OT)と結びついている。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Better Locally Private Sparse Estimation Given Multiple Samples Per User [2.9562742331218725]
ユーザレベルの局所微分プライベートスパース線形回帰について検討する。
我々は、$n$のユーザがそれぞれ$m$のサンプルを提供していれば、$d$の線形依存を排除できることを示した。
本稿では,まず候補変数を選択し,次に狭義の低次元空間で推定を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-08T08:47:20Z) - Agnostic Active Learning of Single Index Models with Linear Sample Complexity [27.065175036001246]
F(mathbf x) = f(langle mathbf w, mathbf xrangle)$。
論文 参考訳(メタデータ) (2024-05-15T13:11:28Z) - Data-Efficient Learning via Clustering-Based Sensitivity Sampling:
Foundation Models and Beyond [28.651041302245538]
我々は$k$-meansクラスタリングとサンプリング感度に基づく新しいデータ選択手法を提案する。
線形回帰にどのように適用できるかを示すとともに,レバレッジスコアサンプリングの性能と驚くほど一致した新しいサンプリング戦略がもたらされる。
論文 参考訳(メタデータ) (2024-02-27T09:03:43Z) - Computational-Statistical Gaps for Improper Learning in Sparse Linear Regression [4.396860522241307]
疎線形回帰の効率的な学習アルゴリズムは, 負のスパイクを持つスパースPCA問題を解くのに有効であることを示す。
我々は,低次および統計的クエリの低い境界を減らしたスパース問題に対して補う。
論文 参考訳(メタデータ) (2024-02-21T19:55:01Z) - Variance Alignment Score: A Simple But Tough-to-Beat Data Selection
Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。
VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文 参考訳(メタデータ) (2024-02-03T06:29:04Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Mediated Uncoupled Learning: Learning Functions without Direct
Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。
単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。
我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文 参考訳(メタデータ) (2021-07-16T22:13:29Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。