論文の概要: Data-Efficient Learning via Clustering-Based Sensitivity Sampling:
Foundation Models and Beyond
- arxiv url: http://arxiv.org/abs/2402.17327v1
- Date: Tue, 27 Feb 2024 09:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:01:20.764234
- Title: Data-Efficient Learning via Clustering-Based Sensitivity Sampling:
Foundation Models and Beyond
- Title(参考訳): クラスタリングに基づく高感度サンプリングによるデータ効率学習:基礎モデルとそれ以上
- Authors: Kyriakos Axiotis, Vincent Cohen-Addad, Monika Henzinger, Sammy Jerome,
Vahab Mirrokni, David Saulpic, David Woodruff, Michael Wunder
- Abstract要約: 我々は$k$-meansクラスタリングとサンプリング感度に基づく新しいデータ選択手法を提案する。
線形回帰にどのように適用できるかを示すとともに,レバレッジスコアサンプリングの性能と驚くほど一致した新しいサンプリング戦略がもたらされる。
- 参考スコア(独自算出の注目度): 28.651041302245538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the data selection problem, whose aim is to select a small
representative subset of data that can be used to efficiently train a machine
learning model. We present a new data selection approach based on $k$-means
clustering and sensitivity sampling. Assuming access to an embedding
representation of the data with respect to which the model loss is H\"older
continuous, our approach provably allows selecting a set of ``typical'' $k +
1/\varepsilon^2$ elements whose average loss corresponds to the average loss of
the whole dataset, up to a multiplicative $(1\pm\varepsilon)$ factor and an
additive $\varepsilon \lambda \Phi_k$, where $\Phi_k$ represents the $k$-means
cost for the input embeddings and $\lambda$ is the H\"older constant.
We furthermore demonstrate the performance and scalability of our approach on
fine-tuning foundation models and show that it outperforms state-of-the-art
methods. We also show how it can be applied on linear regression, leading to a
new sampling strategy that surprisingly matches the performances of leverage
score sampling, while being conceptually simpler and more scalable.
- Abstract(参考訳): 本研究では,機械学習モデルを効率的に学習することのできる,データの小さな代表的サブセットを選択することを目的としたデータ選択問題について検討する。
我々は,$k$-meansクラスタリングと感度サンプリングに基づく新しいデータ選択手法を提案する。
モデル損失がh\"older continuousであるデータへの埋め込み表現へのアクセスを仮定すると、このアプローチは、入力埋め込みの$k$-meansコストを$\phi_k$で、$\lambda$をh\"older定数として、平均損失がデータセット全体の平均損失に対応する一連の ``typical'' $k + 1/\varepsilon^2$要素を、乗算的$(1\pm\varepsilon)$ factorと付加的$\varepsilon \lambda \phi_k$で選択できる。
さらに,基礎モデルの微調整に対するアプローチの性能とスケーラビリティを実証し,最先端手法よりも優れていることを示す。
また,線形回帰に適用する方法を示し,スコアサンプリングの性能に驚くほど合致する新しいサンプリング戦略を導いており,概念的にはシンプルでスケーラブルである。
関連論文リスト
- Turnstile $\ell_p$ leverage score sampling with applications [56.403488578703865]
我々は,行列$AinmathbbRntimes d$の行をサンプリングする新しいアルゴリズムを開発した。
我々のアルゴリズムはサンプル行インデックスのセットを返すだけでなく、わずかに乱れた行を $tildea_i approx a_i$ で返却し、サンプリング確率を $varepsilon$ の相対誤差に近似する。
ロジスティック回帰のために、我々のフレームワークは$を達成した最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-06-01T07:33:41Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Variance Alignment Score: A Simple But Tough-to-Beat Data Selection
Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。
VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文 参考訳(メタデータ) (2024-02-03T06:29:04Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Improved Active Learning via Dependent Leverage Score Sampling [8.400581768343804]
本研究では,非依存的(逆方向雑音)環境下での能動学習手法の改善方法について述べる。
エンフェボタルサンプリングアルゴリズムに基づく簡単な実装法を提案する。
独立サンプリングと比較して,本手法は,所定の目標精度に到達するために必要なサンプル数を最大50%削減する。
論文 参考訳(メタデータ) (2023-10-08T01:51:30Z) - Towards a statistical theory of data selection under weak supervision [7.540077751816086]
サイズが$N$のサンプルが与えられた場合、統計的な推定や学習に使用される小さなサイズの$nN$のサブサンプルを選択するのが有用である。
我々は、ラベルのないサンプル$N$$bold x_i_ile N$を与えられると仮定し、ランダムな推測よりも$y_i$のラベルを予測できる代理モデルにアクセスできると仮定する。
論文 参考訳(メタデータ) (2023-09-25T22:23:27Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Optimal Sampling Gaps for Adaptive Submodular Maximization [28.24164217929491]
アダプティブサブモジュラの文脈における確率サンプリングによる性能損失について検討する。
ポリシワイズ・サブモジュラの性質は、現実世界の幅広いアプリケーションで見つけることができることを示しています。
論文 参考訳(メタデータ) (2021-04-05T03:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。