論文の概要: Regularized Linear Regression for Binary Classification
- arxiv url: http://arxiv.org/abs/2311.02270v1
- Date: Fri, 3 Nov 2023 23:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:33:52.304445
- Title: Regularized Linear Regression for Binary Classification
- Title(参考訳): 二元分類のための正規化線形回帰
- Authors: Danil Akhtiamov, Reza Ghane and Babak Hassibi
- Abstract要約: 正規化線形回帰は、トレーニングセットがノイズラベルを持つ二項分類問題に対して有望なアプローチである。
十分な正則化強度に対して、最適重みは反対符号の2つの値の周りに集中していることを示す。
多くの場合、各重みの1ビットに対する「圧縮」が性能の損失を極めて少なくする。
- 参考スコア(独自算出の注目度): 20.710343135282116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Regularized linear regression is a promising approach for binary
classification problems in which the training set has noisy labels since the
regularization term can help to avoid interpolating the mislabeled data points.
In this paper we provide a systematic study of the effects of the
regularization strength on the performance of linear classifiers that are
trained to solve binary classification problems by minimizing a regularized
least-squares objective. We consider the over-parametrized regime and assume
that the classes are generated from a Gaussian Mixture Model (GMM) where a
fraction $c<\frac{1}{2}$ of the training data is mislabeled. Under these
assumptions, we rigorously analyze the classification errors resulting from the
application of ridge, $\ell_1$, and $\ell_\infty$ regression. In particular, we
demonstrate that ridge regression invariably improves the classification error.
We prove that $\ell_1$ regularization induces sparsity and observe that in many
cases one can sparsify the solution by up to two orders of magnitude without
any considerable loss of performance, even though the GMM has no underlying
sparsity structure. For $\ell_\infty$ regularization we show that, for large
enough regularization strength, the optimal weights concentrate around two
values of opposite sign. We observe that in many cases the corresponding
"compression" of each weight to a single bit leads to very little loss in
performance. These latter observations can have significant practical
ramifications.
- Abstract(参考訳): 正規化線形回帰は、正規化項が誤ラベルデータポイントの補間を避けるのに役立つため、トレーニングセットがノイズラベルを持つバイナリ分類問題に対して有望なアプローチである。
本稿では,正則化最小二乗の目的を最小化することにより二項分類問題の解法を訓練した線形分類器の性能に及ぼす正則化強度の影響を系統的に検討する。
過度にパラメータ化された状態を考え、トレーニングデータの分数$c<\frac{1}{2}$が誤ってラベル付けされたガウス混合モデル(GMM)からクラスが生成されると仮定する。
これらの仮定の下で、リッジ、$\ell_1$および$\ell_\infty$回帰の適用による分類誤差を厳密に分析する。
特に,リッジ回帰は分類誤差を常に改善することを示す。
我々は、$\ell_1$正規化がスパーシティを誘導し、多くの場合、gmmが基礎的なスパーシティ構造を持っていないにもかかわらず、性能を損なうことなく解を最大2桁までスパースすることができることを証明する。
正規化$\ell_\infty$ の場合、十分大きな正規化強度では、最適な重みは反対符号の2つの値に集中する。
多くの場合、各重みの1ビットに対する「圧縮」が性能の損失を極めて少なくする。
後者の観測は、かなりの実用的変化をもたらす可能性がある。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Out-Of-Domain Unlabeled Data Improves Generalization [0.7589678255312519]
本稿では,ラベルなしデータを半教師付き分類問題に組み込む新しい枠組みを提案する。
ラベルのないサンプルは一般化ギャップを狭めるために利用できることを示す。
我々は、さまざまな合成および実世界のデータセットで実施された実験を通じて、我々の主張を検証する。
論文 参考訳(メタデータ) (2023-09-29T02:00:03Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - The Implicit Bias of Benign Overfitting [31.714928102950584]
良性過剰適合は、予測器がほぼ最適の損失を達成しながら、ノイズの多いトレーニングデータに完全に適合する場所である。
標準的な線形回帰を超えてこれを拡張できることを示します。
そして、分類問題に目を向け、状況がずっと有利であることを示す。
論文 参考訳(メタデータ) (2022-01-27T12:49:21Z) - Benign Overfitting in Adversarially Robust Linear Classification [91.42259226639837]
分類器がノイズの多いトレーニングデータを記憶しながらも、優れた一般化性能を達成している「双曲オーバーフィッティング」は、機械学習コミュニティにおいて大きな注目を集めている。
本研究は, 対人訓練において, 対人訓練において, 良心過剰が実際に発生することを示し, 対人訓練に対する防御の原則的アプローチを示す。
論文 参考訳(メタデータ) (2021-12-31T00:27:31Z) - Robust Neural Network Classification via Double Regularization [2.41710192205034]
本稿では、分類モデルの複雑さに対するペナルティと、学習観察の最適な再重み付けを組み合わせた、ニューラルネットワークトレーニング損失の新しい二重正則化を提案する。
我々は, (i) MNIST と (ii) CIFAR-10 のニューラルネット分類のための DRFit について, 両者の相違点について実証した。
論文 参考訳(メタデータ) (2021-12-15T13:19:20Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Label-Imbalanced and Group-Sensitive Classification under
Overparameterization [32.923780772605596]
ラベルの不均衡でグループに敏感な分類は、関連するメトリクスを最適化するための標準トレーニングアルゴリズムを適切に修正することを目指す。
標準実証的リスク最小化に対するロジット調整による損失修正は,一般的には効果がない可能性がある。
本研究では, 2つの共通する不均衡(ラベル/グループ)を統一的に処理し, 敏感群の二値分類に自然に適用できることを示した。
論文 参考訳(メタデータ) (2021-03-02T08:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。