論文の概要: Accurate Coresets for Latent Variable Models and Regularized Regression
- arxiv url: http://arxiv.org/abs/2412.20189v1
- Date: Sat, 28 Dec 2024 16:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:21.472383
- Title: Accurate Coresets for Latent Variable Models and Regularized Regression
- Title(参考訳): 潜時変動モデルと正規化回帰のための正確なコアセット
- Authors: Sanskar Ranjan, Supratim Shit,
- Abstract要約: 正確なコアセットを構築するための統一的なフレームワークを導入する。
一般問題に対する正確なコアセット構築アルゴリズムを提案する。
本研究は, 実データを用いた実験により, 理論的知見を裏付けるものである。
- 参考スコア(独自算出の注目度): 1.9567015559455132
- License:
- Abstract: Accurate coresets are a weighted subset of the original dataset, ensuring a model trained on the accurate coreset maintains the same level of accuracy as a model trained on the full dataset. Primarily, these coresets have been studied for a limited range of machine learning models. In this paper, we introduce a unified framework for constructing accurate coresets. Using this framework, we present accurate coreset construction algorithms for general problems, including a wide range of latent variable model problems and $\ell_p$-regularized $\ell_p$-regression. For latent variable models, our coreset size is $O\left(\mathrm{poly}(k)\right)$, where $k$ is the number of latent variables. For $\ell_p$-regularized $\ell_p$-regression, our algorithm captures the reduction of model complexity due to regularization, resulting in a coreset whose size is always smaller than $d^{p}$ for a regularization parameter $\lambda > 0$. Here, $d$ is the dimension of the input points. This inherently improves the size of the accurate coreset for ridge regression. We substantiate our theoretical findings with extensive experimental evaluations on real datasets.
- Abstract(参考訳): 正確なコアセットは、元のデータセットの重み付けされたサブセットであり、正確なコアセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと同じレベルの精度を維持することを保証する。
主に、これらのコアセットは、限られた機械学習モデルのために研究されている。
本稿では,正確なコアセットを構築するための統一的なフレームワークを提案する。
このフレームワークを用いて、幅広い潜在変数モデル問題や$\ell_p$-regularized $\ell_p$-regressionを含む、一般的な問題に対する正確なコアセット構築アルゴリズムを提示する。
潜在変数モデルの場合、コアセットのサイズは$O\left(\mathrm{poly}(k)\right)$である。
for $\ell_p$-regularized $\ell_p$-regression, our algorithm captures the reduction of model complexity due by regularization, result a coreset that size is always smaller than $d^{p}$ for a regularization parameters $\lambda > 0$。
ここで、$d$は入力点の次元である。
これにより、リッジ回帰のための正確なコアセットのサイズが本質的に改善される。
本研究は, 実データを用いた実験実験により, 理論的知見を裏付けるものである。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing [30.508036898655114]
プルーニングスキームは、大量のパラメータを持つ訓練されたモデルの複雑さを減らすために、実際に広く用いられている。
正規化がない場合の勾配降下は、グリーディプルーニングに適さないモデル、すなわち、多くの列が最大値に匹敵する$ell$ノルムを持つことができる。
以上の結果から,グリーディ・プルーニング+ファインチューニングがより小さなモデルに繋がる理由について,より厳密な考察が得られた。
論文 参考訳(メタデータ) (2023-03-20T21:05:44Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - $p$-Generalized Probit Regression and Scalable Maximum Likelihood
Estimation via Sketching and Coresets [74.37849422071206]
本稿では, 2次応答に対する一般化線形モデルである,$p$一般化プロビット回帰モデルについて検討する。
p$の一般化されたプロビット回帰に対する最大可能性推定器は、大容量データ上で$(1+varepsilon)$の係数まで効率的に近似できることを示す。
論文 参考訳(メタデータ) (2022-03-25T10:54:41Z) - Coresets for Time Series Clustering [33.801060211529354]
本稿では,時系列データを用いたクラスタリング問題に対するコアセット構築の問題について検討する。
我々の主な貢献は混合モデルのためのコアセットを構築するアルゴリズムである。
合成データを用いて,コアセットの性能を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-28T16:21:13Z) - FriendlyCore: Practical Differentially Private Aggregation [67.04951703461657]
我々は、制約のない(擬似)計量空間から点の集合を$cal D$として取り出す、単純で実用的なツールである$mathsfFriendlyCore$を提案する。
$cal D$ が有効直径 $r$ を持つとき、$mathsfFriendlyCore$ はすべての点を含む "stable" サブセット $cal D_Gsubseteq cal D$ を返す。
$mathsfFriendlyCore$は、プライベートに集約する前に入力を前処理するために使用することができる。
論文 参考訳(メタデータ) (2021-10-19T17:43:50Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Coresets for Regressions with Panel Data [29.910677117943568]
まず、パネルデータによる回帰問題に対するコアセットを定義し、その後、コアセットを構築するための効率的なアルゴリズムを示す。
われわれのアプローチは、Foldman-Langbergフレームワークに基づいており、重要なステップは「トータル感度」を上向きにすることである。
実証的に、我々のアプローチを実世界のデータセットで評価する。
論文 参考訳(メタデータ) (2020-11-02T13:58:31Z) - On Coresets For Regularized Regression [8.965836729525394]
正規化された回帰版に対するコアセットのサイズを $|mathbfAx-mathbfb|_pr + lambda|mathbfx|_qs$ で解析する。
我々は、$r neq s$の場合、正規化回帰のコアセットが非正規化バージョンの最適コアセットよりも小さくなることを示す。
論文 参考訳(メタデータ) (2020-06-09T18:25:04Z) - Model-Based Reinforcement Learning with Value-Targeted Regression [48.92439657407732]
我々は、遷移モデル $P$ が既知のモデルの族 $mathcalP$ に属する有限水平エピソード RL に焦点を当てる。
線形混合の特別な場合において、後悔束は $tildemathcalO(dsqrtH3T)$ という形を取る。
論文 参考訳(メタデータ) (2020-06-01T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。