論文の概要: Feature Selection and Regularization in Multi-Class Classification: An Empirical Study of One-vs-Rest Logistic Regression with Gradient Descent Optimization and L1 Sparsity Constraints
- arxiv url: http://arxiv.org/abs/2510.14449v1
- Date: Thu, 16 Oct 2025 08:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.784811
- Title: Feature Selection and Regularization in Multi-Class Classification: An Empirical Study of One-vs-Rest Logistic Regression with Gradient Descent Optimization and L1 Sparsity Constraints
- Title(参考訳): 多クラス分類における特徴選択と正規化: 勾配の輝き最適化とL1スペーサ制約による1-vs-Restロジスティック回帰の実証的研究
- Authors: Jahidul Arafat, Fariha Tasmin, Md Kaosar Uddin, Sanjaya Poudel, Eftakhar Ahmed Arnob,
- Abstract要約: マルチクラスのワイン分類は、モデル精度、特徴次元、解釈可能性の基本的なトレードオフを示す。
本稿では,UCIワインデータセット上での1-vs-Restロジスティック回帰に関する総合的研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-class wine classification presents fundamental trade-offs between model accuracy, feature dimensionality, and interpretability - critical factors for production deployment in analytical chemistry. This paper presents a comprehensive empirical study of One-vs-Rest logistic regression on the UCI Wine dataset (178 samples, 3 cultivars, 13 chemical features), comparing from-scratch gradient descent implementation against scikit-learn's optimized solvers and quantifying L1 regularization effects on feature sparsity. Manual gradient descent achieves 92.59 percent mean test accuracy with smooth convergence, validating theoretical foundations, though scikit-learn provides 24x training speedup and 98.15 percent accuracy. Class-specific analysis reveals distinct chemical signatures with heterogeneous patterns where color intensity varies dramatically (0.31 to 16.50) across cultivars. L1 regularization produces 54-69 percent feature reduction with only 4.63 percent accuracy decrease, demonstrating favorable interpretability-performance trade-offs. We propose an optimal 5-feature subset achieving 62 percent complexity reduction with estimated 92-94 percent accuracy, enabling cost-effective deployment with 80 dollars savings per sample and 56 percent time reduction. Statistical validation confirms robust generalization with sub-2ms prediction latency suitable for real-time quality control. Our findings provide actionable guidelines for practitioners balancing comprehensive chemical analysis against targeted feature measurement in resource-constrained environments.
- Abstract(参考訳): マルチクラスのワイン分類は、分析化学における生産展開の重要な要因であるモデル精度、特徴次元、解釈可能性の基本的なトレードオフを示す。
本稿では,UCIワインデータセットの1-vs-Restロジスティック回帰(178試料,3品種,13化学的特徴)を総合的に検討し,Scikit-Lernの最適化された解法との比較と特徴空間に対するL1正規化効果の定量化を行った。
手動勾配降下は、スムーズな収束で平均テスト精度92.99%を達成し、理論的な基礎を検証しているが、シキト・ラーンは24倍のトレーニングスピードアップと98.15%の精度を提供する。
クラス固有の分析では、品種ごとに色強度が劇的に変化する異質なパターン(0.31から16.50)で異なる化学的特徴を示す。
L1正則化は54-69パーセントの機能を低下させ、4.63パーセントの精度を低下させ、良好な解釈可能性と性能のトレードオフを示す。
提案する5機能サブセットは,92~94パーセントの精度で62%の複雑性削減を実現し,コスト効率の高い1サンプルあたり80ドル,56%の時間短縮を実現している。
統計的検証により、リアルタイムの品質管理に適した2ms以下の予測遅延によるロバストな一般化が確認できる。
本研究は, 資源制約環境における目標特徴量に対する包括的化学分析のバランスをとる実践者に対して, 実用的なガイドラインを提供するものである。
関連論文リスト
- Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Signal Fidelity Index-Aware Calibration for Dementia Predictions Across Heterogeneous Real-World Data [1.741250583668341]
認知症患者レベルでのSFI(Signal Fidelity Index)診断データ品質について検討した。
結果ラベルのない異種データセットにおけるモデル性能向上のためのSFI対応キャリブレーションを検証した。
論文 参考訳(メタデータ) (2025-09-10T15:19:04Z) - Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization [0.0]
マンモグラフィ画像検索システムでは、5つの異なるクラスにまたがる正確なBIRADSカテゴリマッチングが必要である。
現在の医用画像検索研究は方法論的限界に悩まされている。
論文 参考訳(メタデータ) (2025-08-06T18:05:18Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Classifier Enhanced Deep Learning Model for Erythroblast Differentiation with Limited Data [0.08388591755871733]
病態と遺伝疾患の1%を含む血液疾患は、重大な診断上の課題を呈している。
本手法では,機械学習モデルの有効性を考慮した各種機械学習設定の評価を行う。
データが利用可能になった場合、提案されたソリューションは、小さくてユニークなデータセットの精度を高めるためのソリューションである。
論文 参考訳(メタデータ) (2024-11-23T15:51:15Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - Identifying and mitigating bias in algorithms used to manage patients in
a pandemic [4.756860520861679]
現実のデータセットを使用して、新型コロナウイルスの死亡率、人工呼吸器の状態、入院状態を予測するために、ロジスティック回帰モデルが作成された。
モデルではバイアス試験の回数が57%減少した。
キャリブレーション後, 予測モデルの平均感度は0.527から0.955に増加した。
論文 参考訳(メタデータ) (2021-10-30T21:10:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。