論文の概要: Robust Learning of a Group DRO Neuron
- arxiv url: http://arxiv.org/abs/2601.18115v1
- Date: Mon, 26 Jan 2026 04:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.660962
- Title: Robust Learning of a Group DRO Neuron
- Title(参考訳): 群DROニューロンのロバスト学習
- Authors: Guyang Cao, Shuyao Li, Sushrut Karmalkar, Jelena Diakonikolas,
- Abstract要約: 任意のラベルノイズと群レベルの分布シフトの存在下で,標準2乗損失下で原始ニューロンを学習する問題について検討した。
我々のフレームワークは、任意のラベルの破損やグループ固有の分布シフトに直面して、堅牢な学習保証を提供する。
- 参考スコア(独自算出の注目度): 21.632698901872843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of learning a single neuron under standard squared loss in the presence of arbitrary label noise and group-level distributional shifts, for a broad family of covariate distributions. Our goal is to identify a ''best-fit'' neuron parameterized by $\mathbf{w}_*$ that performs well under the most challenging reweighting of the groups. Specifically, we address a Group Distributionally Robust Optimization problem: given sample access to $K$ distinct distributions $\mathcal p_{[1]},\dots,\mathcal p_{[K]}$, we seek to approximate $\mathbf{w}_*$ that minimizes the worst-case objective over convex combinations of group distributions $\boldsymbolλ \in Δ_K$, where the objective is $\sum_{i \in [K]}λ_{[i]}\,\mathbb E_{(\mathbf x,y)\sim\mathcal p_{[i]}}(σ(\mathbf w\cdot\mathbf x)-y)^2 - νd_f(\boldsymbolλ,\frac{1}{K}\mathbf1)$ and $d_f$ is an $f$-divergence that imposes (optional) penalty on deviations from uniform group weights, scaled by a parameter $ν\geq 0$. We develop a computationally efficient primal-dual algorithm that outputs a vector $\widehat{\mathbf w}$ that is constant-factor competitive with $\mathbf{w}_*$ under the worst-case group weighting. Our analytical framework directly confronts the inherent nonconvexity of the loss function, providing robust learning guarantees in the face of arbitrary label corruptions and group-specific distributional shifts. The implementation of the dual extrapolation update motivated by our algorithmic framework shows promise on LLM pre-training benchmarks.
- Abstract(参考訳): 本研究では,任意のラベルノイズと群レベルの分布シフトが存在する場合の標準2乗損失下で単一ニューロンを学習する問題を,共変量分布の広い家系に対して検討した。
我々のゴールは、最も困難なグループの再重み付けの下でうまく機能する$\mathbf{w}_*$でパラメータ化された'ベストフィット'ニューロンを特定することである。
具体的には、群分散ロバスト最適化の問題に対処する:$K$別の分布へのサンプルアクセス$\mathcal p_{[1]},\dots,\mathcal p_{[K]}$、群分布の凸結合に対する最悪のケース目標$\mathbf{w}_*$を最小化する$\mathbf{w}_*$、目的が$\sum_{i \in [K]}λ_{[i]}\,\mathbb E_{(\mathbf x,y)\sim\mathcal p_{[i]}}(σ(\mathbf w\cdot\mathbf x)-y)^2 - νd_f(\boldsymbol,\mathbf x)-y)^2 - $\mathbf{w}_*$, $\boldsymboldsymbolλ \in Δ_K$。
計算効率の良い原始双対アルゴリズムを開発し、そのベクトル$\widehat{\mathbf w}$は、最悪の群重み付けの下で$\mathbf{w}_*$と競合する定数因子を出力する。
我々の分析フレームワークは、損失関数の固有の非凸性に直接直面し、任意のラベルの破損やグループ固有の分布シフトに直面した堅牢な学習保証を提供する。
我々のアルゴリズムフレームワークによって動機付けられた二重補間更新の実装は、LLM事前学習ベンチマークにおける有望性を示している。
関連論文リスト
- A New Rejection Sampling Approach to $k$-$\mathtt{means}$++ With Improved Trade-Offs [0.12289361708127876]
単純かつ効果的なリジェクションサンプリングに基づくアプローチで,$k$-$mathttmeans$++ を高速化する。
最初のメソッドは $tildeO(mathttnnz (mathcalX) + beta k2d)$ で実行されます。
第2の手法は,計算コストと解品質の新たなトレードオフを示す。
論文 参考訳(メタデータ) (2025-02-04T08:05:34Z) - Learning a Single Neuron Robustly to Distributional Shifts and Adversarial Label Noise [38.551072383777594]
本研究では, 対向分布シフトの存在下でのL2$損失に対して, 単一ニューロンを学習する問題について検討した。
ベクトルベクトル二乗損失を$chi2$divergenceから$mathcalp_0$に近似するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-11T03:43:52Z) - Robust Distribution Learning with Local and Global Adversarial Corruptions [17.22168727622332]
誤差を$sqrtvarepsilon k + rho + tildeO(dsqrtkn-1/(k lor2)$で有界な共分散を持つ場合、効率的な有限サンプルアルゴリズムを開発する。
我々の効率的な手順は、理想的だが難解な2-ワッサーシュタイン射影推定器の新たなトレースノルム近似に依存する。
論文 参考訳(メタデータ) (2024-06-10T17:48:36Z) - Semidefinite programming relaxations and debiasing for MAXCUT-based clustering [1.9761774213809036]
2つのガウス分布を$mathbbRp$で混合して引き出す小さなデータサンプルを$n$で分割する問題を考察する。
グラフ上の最大カットを求めるように定式化された整数二次プログラムの半定値プログラミング緩和を用いる。
論文 参考訳(メタデータ) (2024-01-16T03:14:24Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Near-Optimal SQ Lower Bounds for Agnostically Learning Halfspaces and
ReLUs under Gaussian Marginals [49.60752558064027]
ガウス境界の下では、半空間とReLUを不可知的に学習する基本的な問題について検討する。
我々の下限は、これらのタスクの現在の上限が本質的に最良のものであるという強い証拠を与える。
論文 参考訳(メタデータ) (2020-06-29T17:10:10Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。