論文の概要: Enhancing Variable Selection in Large-scale Logistic Regression: Leveraging Manual Labeling with Beneficial Noise
- arxiv url: http://arxiv.org/abs/2504.16585v1
- Date: Wed, 23 Apr 2025 10:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:59:26.093394
- Title: Enhancing Variable Selection in Large-scale Logistic Regression: Leveraging Manual Labeling with Beneficial Noise
- Title(参考訳): 大規模ロジスティック回帰における可変選択の促進--ベネシアルノイズを用いた手動ラベリングの活用
- Authors: Xiaofei Wu, Rongmei Liang,
- Abstract要約: 大規模教師付き学習では、正規化項を導入することにより、ペナル化ロジスティック回帰(PLR)がオーバーフィッティング問題に効果的に対処する。
本稿では,手動ラベリングから生じるラベルノイズが,分類難易度にのみ関係していることを理論的に示す。
実験結果から,従来の変数選択分類手法と比較して,手動ラベル付き雑音データを用いたPLRは,複数の大規模データセットに対して高い推定精度と分類精度を実現することが示された。
- 参考スコア(独自算出の注目度): 1.1477123412184609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large-scale supervised learning, penalized logistic regression (PLR) effectively addresses the overfitting problem by introducing regularization terms yet its performance still depends on efficient variable selection strategies. This paper theoretically demonstrates that label noise stemming from manual labeling, which is solely related to classification difficulty, represents a type of beneficial noise for variable selection in PLR. This benefit is reflected in a more accurate estimation of the selected non-zero coefficients when compared with the case where only truth labels are used. Under large-scale settings, the sample size for PLR can become very large, making it infeasible to store on a single machine. In such cases, distributed computing methods are required to handle PLR model with manual labeling. This paper presents a partition-insensitive parallel algorithm founded on the ADMM (alternating direction method of multipliers) algorithm to address PLR by incorporating manual labeling. The partition insensitivity of the proposed algorithm refers to the fact that the solutions obtained by the algorithm will not change with the distributed storage of data. In addition, the algorithm has global convergence and a sublinear convergence rate. Experimental results indicate that, as compared with traditional variable selection classification techniques, the PLR with manually-labeled noisy data achieves higher estimation and classification accuracy across multiple large-scale datasets.
- Abstract(参考訳): 大規模教師付き学習では、正規化項を導入することで、ペナル化ロジスティック回帰(PLR)がオーバーフィッティング問題に効果的に対処するが、その性能は依然として効率的な変数選択戦略に依存している。
本稿では,手動ラベリングから生じるラベルノイズが,分類難易度にのみ関係していることを理論的に示す。
この利点は、真理ラベルのみを使用する場合と比較して、選択された非ゼロ係数のより正確な推定に反映される。
大規模な設定では、PLRのサンプルサイズが非常に大きくなり、単一のマシンに格納することができない。
このような場合、PLRモデルと手動ラベリングを扱うために分散コンピューティング手法が必要である。
本稿では,ADMMアルゴリズム(乗算器の交互方向法)に基づいて,手動ラベリングを組み込んでPLRに対処する分割非感受性並列アルゴリズムを提案する。
提案アルゴリズムの分割感度は, 分散ストレージによってアルゴリズムによって得られる解が変化しないという事実を指す。
さらに、このアルゴリズムは、大域収束率とサブ線形収束率を有する。
実験結果から,従来の変数選択分類手法と比較して,手動ラベル付き雑音データを用いたPLRは,複数の大規模データセットに対して高い推定精度と分類精度を実現することが示された。
関連論文リスト
- Pseudo-label Refinement for Improving Self-Supervised Learning Systems [22.276126184466207]
自己教師付き学習システムは、人間のアノテーションを必要とせずに、クラスタリングベースの擬似ラベルを使用して監督する。
クラスタリング手法によって生じるこれらの擬似ラベルのノイズは、学習プロセスに難題となり、性能が劣化する。
本稿では,この問題に対処する擬似ラベル改良アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:47:59Z) - Inaccurate Label Distribution Learning with Dependency Noise [52.08553913094809]
本稿では,依存雑音に基づく不正確なラベル分布学習(DN-ILDL)フレームワークを導入し,ラベル分布学習におけるノイズによる課題に対処する。
本稿では,DN-ILDLがILDL問題に効果的に対処し,既存のLCL法より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T07:58:07Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Partial sequence labeling with structured Gaussian Processes [8.239028141030621]
部分列ラベリングのための構造付きガウス過程を提案する。
予測の不確実性を符号化し、モデル選択やハイパーパラメータ学習に余分な労力を要しない。
いくつかのシーケンスラベリングタスクで評価を行い,実験結果から提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-09-20T00:56:49Z) - Optimizing Diffusion Rate and Label Reliability in a Graph-Based
Semi-supervised Classifier [2.4366811507669124]
Local and Global Consistency (LGC)アルゴリズムは、グラフベースの半教師付き半教師付き(GSSL)分類器の1つである。
ラベル付きインスタンスの自己影響を取り除くことは、どのように有用か、そして、それがアウト・ワン・アウトエラーにどのように関係するかについて議論する。
本研究では,ラベルの信頼性と拡散率を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T16:58:52Z) - Label Ranking through Nonparametric Regression [5.994412766684843]
ラベルランキング(英: Label Ranking)とは、有限個のラベルの上のランクに特徴をマップする仮説を学習する問題である。
雑音のない非パラメトリック回帰設定において,ラベルランク付けのための生成モデルを導入する。
我々は,入力回帰雑音が観測された出力にどのように影響するかを理解することを目的として,実験による理論的貢献を補完する。
論文 参考訳(メタデータ) (2021-11-04T10:59:46Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Delving Deep into Label Smoothing [112.24527926373084]
ディープニューラルネットワーク(DNN)の効果的な正規化ツールとしてのラベル平滑化
対象カテゴリのモデル予測の統計に基づいてソフトラベルを生成するオンラインラベル平滑化(OLS)戦略を提案する。
論文 参考訳(メタデータ) (2020-11-25T08:03:11Z) - Evolving Multi-label Classification Rules by Exploiting High-order Label
Correlation [2.9822184411723645]
マルチラベル分類タスクでは、各問題インスタンスは同時に複数のクラスに関連付けられている。
ラベル間の相関は、ペアワイズ相関の取得や高次相関の活用など、様々なレベルで利用することができる。
本稿では,教師付き学習分類器システムを用いて,ラベルのサブセット内での高次ラベル相関を利用することを目的とする。
論文 参考訳(メタデータ) (2020-07-22T18:13:12Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。