論文の概要: The Impact of Feature Scaling In Machine Learning: Effects on Regression and Classification Tasks
- arxiv url: http://arxiv.org/abs/2506.08274v1
- Date: Mon, 09 Jun 2025 22:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.860878
- Title: The Impact of Feature Scaling In Machine Learning: Effects on Regression and Classification Tasks
- Title(参考訳): 機械学習における特徴スケーリングの影響:回帰と分類課題への影響
- Authors: João Manoel Herrera Pinheiro, Suzana Vilas Boas de Oliveira, Thiago Henrique Segreto Silva, Pedro Antonio Rabelo Saraiva, Enzo Ferreira de Souza, Leonardo André Ambrosio, Marcelo Becker,
- Abstract要約: 本研究は、14の機械学習アルゴリズムと16のデータセットにまたがる12のスケーリングテクニックを体系的に評価することで、機能スケーリングに関する包括的な研究が欠如していることに対処する。
我々は、予測性能(精度、MAE、MSE、R2$など)と計算コスト(トレーニング時間、推論時間、メモリ使用量)への影響を慎重に分析した。
- 参考スコア(独自算出の注目度): 0.4711628883579317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research addresses the critical lack of comprehensive studies on feature scaling by systematically evaluating 12 scaling techniques - including several less common transformations - across 14 different Machine Learning algorithms and 16 datasets for classification and regression tasks. We meticulously analyzed impacts on predictive performance (using metrics such as accuracy, MAE, MSE, and $R^2$) and computational costs (training time, inference time, and memory usage). Key findings reveal that while ensemble methods (such as Random Forest and gradient boosting models like XGBoost, CatBoost and LightGBM) demonstrate robust performance largely independent of scaling, other widely used models such as Logistic Regression, SVMs, TabNet, and MLPs show significant performance variations highly dependent on the chosen scaler. This extensive empirical analysis, with all source code, experimental results, and model parameters made publicly available to ensure complete transparency and reproducibility, offers model-specific crucial guidance to practitioners on the need for an optimal selection of feature scaling techniques.
- Abstract(参考訳): この研究は、14の機械学習アルゴリズムと16のデータセットにまたがる12のスケーリングテクニック(あまり一般的でない変換を含む)を体系的に評価することで、機能スケーリングに関する包括的な研究が欠如していることに対処する。
我々は、予測性能(精度、MAE、MSE、$R^2$など)と計算コスト(トレーニング時間、推論時間、メモリ使用量)への影響を慎重に分析した。
鍵となる発見は、アンサンブル手法(ランダムフォレストやXGBoost、CatBoost、LightGBMなど)は、スケーリングに大きく依存しない堅牢なパフォーマンスを示す一方で、ロジスティック回帰、SVM、TabNet、MLPといった他の広く使われているモデルでは、選択したスケーラに大きく依存するパフォーマンスの顕著な変化を示す。
この広範な経験的分析は、すべてのソースコード、実験結果、そして完全な透明性と再現性を保証するために公開されたモデルパラメータとともに、機能スケーリングテクニックの最適な選択の必要性について、実践者にモデル固有の重要なガイダンスを提供する。
関連論文リスト
- Gradient-Optimized Fuzzy Classifier: A Benchmark Study Against State-of-the-Art Models [0.0]
本稿では,複数の最先端機械学習モデルに対して,GF(Gradient-d Fuzzy Inference System)の性能ベンチマークを行った。
その結果、GFモデルが競争力を発揮し、いくつかのケースでは、高い精度と極めて低いトレーニング時間を維持しながら、分類精度が優れていることが示された。
これらの知見は、教師付き学習タスクにおけるより複雑なディープラーニングモデルに対する解釈可能、効率的、適応可能な代替手段として、勾配最適化ファジィシステムの可能性を支持する。
論文 参考訳(メタデータ) (2025-04-22T20:47:06Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。
生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Comprehensive Benchmarking of Machine Learning Methods for Risk Prediction Modelling from Large-Scale Survival Data: A UK Biobank Study [0.0]
大規模コホート研究と機械学習(ML)アルゴリズムの多種多様なツールキットにより、このような生存課題の取り組みが促進されている。
我々は,線形学習モデルからディープラーニング(DL)モデルまで,8つのサバイバルタスク実装のベンチマークを試みた。
n = 5,000からn = 250,000のサンプルサイズで、異なるアーキテクチャがいかにうまくスケールするかを評価した。
論文 参考訳(メタデータ) (2025-03-11T20:27:20Z) - Feasible Learning [78.6167929413604]
本稿では,サンプル中心の学習パラダイムであるFeasible Learning(FL)を紹介する。
大規模言語モデルにおける画像分類, 年齢回帰, 好みの最適化といった経験的分析により, FLを用いて訓練したモデルでは, 平均的性能に限界があるものの, ERMと比較して改善された尾の挙動を示しながらデータから学習できることが実証された。
論文 参考訳(メタデータ) (2025-01-24T20:39:38Z) - "FRAME: Forward Recursive Adaptive Model Extraction-A Technique for Advance Feature Selection" [0.0]
本研究では,新しいハイブリッド手法であるフォワード再帰適応モデル抽出手法(FRAME)を提案する。
FRAMEは、フォワード選択と再帰的特徴除去を組み合わせて、さまざまなデータセットにおける機能選択を強化する。
その結果、FRAMEは下流の機械学習評価指標に基づいて、常に優れた予測性能を提供することが示された。
論文 参考訳(メタデータ) (2025-01-21T08:34:10Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。