論文の概要: Linear Regression using Heterogeneous Data Batches
- arxiv url: http://arxiv.org/abs/2309.01973v1
- Date: Tue, 5 Sep 2023 05:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 16:14:44.600968
- Title: Linear Regression using Heterogeneous Data Batches
- Title(参考訳): 不均一データバッチを用いた線形回帰
- Authors: Ayush Jain, Rajat Sen, Weihao Kong, Abhimanyu Das, Alon Orlitsky
- Abstract要約: 多くの学習アプリケーションでは、データは複数のソースから収集され、それぞれがサンプルのEmphbatchを提供する。
このセットアップでは、出力が入力のノイズの多い線形結合である、最も基本的で重要な表現の1つを考える。
そこで本研究では,いくつかの方法で既存の結果を改善する勾配に基づく新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 35.66749410298309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many learning applications, data are collected from multiple sources, each
providing a \emph{batch} of samples that by itself is insufficient to learn its
input-output relationship. A common approach assumes that the sources fall in
one of several unknown subgroups, each with an unknown input distribution and
input-output relationship. We consider one of this setup's most fundamental and
important manifestations where the output is a noisy linear combination of the
inputs, and there are $k$ subgroups, each with its own regression vector. Prior
work~\cite{kong2020meta} showed that with abundant small-batches, the
regression vectors can be learned with only few, $\tilde\Omega( k^{3/2})$,
batches of medium-size with $\tilde\Omega(\sqrt k)$ samples each. However, the
paper requires that the input distribution for all $k$ subgroups be isotropic
Gaussian, and states that removing this assumption is an ``interesting and
challenging problem". We propose a novel gradient-based algorithm that improves
on the existing results in several ways. It extends the applicability of the
algorithm by: (1) allowing the subgroups' underlying input distributions to be
different, unknown, and heavy-tailed; (2) recovering all subgroups followed by
a significant proportion of batches even for infinite $k$; (3) removing the
separation requirement between the regression vectors; (4) reducing the number
of batches and allowing smaller batch sizes.
- Abstract(参考訳): 多くの学習アプリケーションでは、データは複数のソースから収集され、それぞれが入力と出力の関係を学ぶのに不十分なサンプルのemph{batch}を提供する。
一般的なアプローチでは、ソースは未知のサブグループの1つに該当し、それぞれ未知の入力分布と入出力関係を持つ。
我々は、出力が入力のノイズの多い線形結合であり、それぞれが回帰ベクトルを持つ$k$部分群が存在する、この設定の最も基本的かつ重要な表現の1つを考える。
先行研究~\cite{kong2020meta} は、豊富な小さなバッチでは、回帰ベクトルはわずかに、$\tilde\Omega(k^{3/2})$、$\tilde\Omega(\sqrt k)$サンプルのバッチでのみ学習できることを示した。
しかし、この論文は、すべての$k$ 部分群の入力分布が等方的ガウス群であることを要求し、この仮定の除去は「興味深く挑戦的な問題」であると述べている。
そこで本研究では,いくつかの方法で既存の結果を改善するアルゴリズムを提案する。
アルゴリズムの適用性は、(1)サブグループの下位の入力分布が異なる、未知、重み付きを許容する、(2)すべてのサブグループを回復し、無限の$k$でもかなりのバッチの割合で処理する、(3)回帰ベクトル間の分離要件を取り除く、(4)バッチ数を減らし、バッチサイズを小さくする、などによって拡張される。
関連論文リスト
- Learning general Gaussian mixtures with efficient score matching [16.06356123715737]
我々は、$d$次元で$k$ガウシアンの混合を学習する問題を研究する。
我々は、下層の混合成分について分離を前提としない。
我々は、ターゲット混合物から$dmathrmpoly(k/varepsilon)$サンプルを抽出し、サンプル-ポリノミカル時間で実行し、サンプリング器を構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:30:36Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Statistical-Computational Tradeoffs in Mixed Sparse Linear Regression [20.00109111254507]
この問題は、$frackSNR2$-to-$frack2SNR2$statistic-to-computational gapである。
また,この問題が困難な狭い状況以外では,関連する混合回帰検出問題を解くための簡単なしきい値決定アルゴリズムも分析する。
論文 参考訳(メタデータ) (2023-03-03T18:03:49Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Nonlinear Distribution Regression for Remote Sensing Applications [6.664736150040092]
多くのリモートセンシングアプリケーションでは、観察から関心のある変数やパラメータを推定したい。
ニューラルネットワーク、ランダムフォレスト、ガウス過程などの標準アルゴリズムは、これら2つに関連して容易に利用可能である。
本稿では, グループ化されたデータの統計を仮定することなく, 従来の問題を解く非線形(カーネルベース)な分散回帰法を提案する。
論文 参考訳(メタデータ) (2020-12-07T22:04:43Z) - Estimating Stochastic Linear Combination of Non-linear Regressions
Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。
私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文 参考訳(メタデータ) (2020-10-19T07:15:38Z) - A case where a spindly two-layer linear network whips any neural network
with a fully connected input layer [24.132345589750592]
勾配降下によるスパース目標を効率的に学習するために,スパース入力層が必要であることを示す。
驚くべきことに、同じタイプの問題は、単純な2層線形ニューラルネットワークによって大幅に効率良く解決できる。
論文 参考訳(メタデータ) (2020-10-16T20:49:58Z) - Linear-Sample Learning of Low-Rank Distributions [56.59844655107251]
ktimes k$, rank-r$, matrices to normalized $L_1$ distance requires $Omega(frackrepsilon2)$ sample。
我々は、$cal O(frackrepsilon2log2fracepsilon)$ sample, a number linear in the high dimension, and almost linear in the matrices, usually low, rank proofs.というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-30T19:10:32Z) - Conditional Uncorrelation and Efficient Non-approximate Subset Selection
in Sparse Regression [72.84177488527398]
相関性の観点からスパース回帰を考察し,条件付き非相関式を提案する。
提案手法により、計算複雑性は、スパース回帰における各候補部分集合に対して$O(frac16k3+mk2+mkd)$から$O(frac16k3+frac12mk2)$に削減される。
論文 参考訳(メタデータ) (2020-09-08T20:32:26Z) - Robustly Learning any Clusterable Mixture of Gaussians [55.41573600814391]
本研究では,高次元ガウス混合系の対向ロバスト条件下での効率的な学習性について検討する。
理論的に最適に近い誤り証明である$tildeO(epsilon)$の情報を、$epsilon$-corrupted $k$-mixtureで学習するアルゴリズムを提供する。
我々の主な技術的貢献は、ガウス混合系からの新しい頑健な識別可能性証明クラスターであり、これは正方形の定度証明システムによって捉えることができる。
論文 参考訳(メタデータ) (2020-05-13T16:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。