論文の概要: Wine Quality Prediction with Ensemble Trees: A Unified, Leak-Free Comparative Study
- arxiv url: http://arxiv.org/abs/2506.06327v1
- Date: Fri, 30 May 2025 17:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.064919
- Title: Wine Quality Prediction with Ensemble Trees: A Unified, Leak-Free Comparative Study
- Title(参考訳): アンサンブル木を用いたワインの品質予測 : 統一された漏れのない比較研究
- Authors: Zilang Chen,
- Abstract要約: 我々は,5つのアンサンブル学習者(ランドムフォレスト,グラディエントブースティング,XGBoost,LightGBM,CatBoost)を標準のVinho Verde赤と白のデータセットに統一した最初のベンチマークを提示する。
グラディエントブースティングは最高精度(赤はF1 0.693 +/- 0.028、白は0.664 +/- 0.016)を達成し、続いてランダムフォレストとXGBoostの3ポイント以内である。
我々は、最もコスト効率の良い生産モデルとしてRandom Forest、GPU効率の良い代替品としてXGBoostとLightGBM、オフラインベンチマークの精度天井としてGradient Boostingを推奨する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and reproducible wine-quality assessment is critical for production control yet remains dominated by subjective, labour-intensive tasting panels. We present the first unified benchmark of five ensemble learners (Random Forest, Gradient Boosting, XGBoost, LightGBM, CatBoost) on the canonical Vinho Verde red- and white-wine datasets (1,599 and 4,898 instances, 11 physicochemical attributes). Our leakage-free workflow employs an 80:20 stratified train-test split, five-fold StratifiedGroupKFold within the training set, per-fold standardisation, SMOTE-Tomek resampling, inverse-frequency cost weighting, Optuna hyper-parameter search (120-200 trials per model) and a two-stage feature-selection refit. Final scores on untouched test sets are reported with weighted F1 as the headline metric. Gradient Boosting achieves the highest accuracy (weighted F1 0.693 +/- 0.028 for red and 0.664 +/- 0.016 for white), followed within three percentage points by Random Forest and XGBoost. Limiting each model to its five top-ranked variables lowers dimensionality by 55 percent while reducing weighted F1 by only 2.6 percentage points for red and 3.0 percentage points for white, indicating that alcohol, volatile acidity, sulphates, free SO2 and chlorides capture most predictive signal. Runtime profiling on an EPYC 9K84/H20 node reveals a steep efficiency gradient: Gradient Boosting averages 12 h per five-fold study, XGBoost and LightGBM require 2-3 h, CatBoost 1 h, and Random Forest under 50 min. We therefore recommend Random Forest as the most cost-effective production model, XGBoost and LightGBM as GPU-efficient alternatives, and Gradient Boosting as the accuracy ceiling for offline benchmarking. The fully documented pipeline and metric set provide a reproducible baseline for future work on imbalanced multi-class wine-quality prediction.
- Abstract(参考訳): 正確な再現性のあるワイン品質評価は生産管理にとって重要であるが、主観的で労働集約的な味付けパネルが支配している。
我々は,5つのアンサンブル学習者(Random Forest, Gradient Boosting, XGBoost, LightGBM, CatBoost)を標準のVinho Verde赤および白ワインデータセット(1,599,4,898インスタンス,物理化学的属性11)に統一したベンチマークを行った。
我々のリークフリーワークフローは、80:20の階層化された列車テスト分割、5倍のStratifiedGroupKFoldをトレーニングセット、一組の標準化、SMOTE-Tomekリサンプリング、逆周波数コスト重み付け、Optuna hyper-parameter search(モデル毎120-200トライアル)、2段階の機能選択の調整に採用しています。
非タッチテストセットの最終的なスコアは、ヘッドラインメトリックとして重み付きF1で報告される。
グラディエントブースティングは最高精度(赤はF1 0.693 +/- 0.028、白は0.664 +/- 0.016)を達成し、続いてランダムフォレストとXGBoostの3ポイント以内である。
それぞれのモデルを上位5つの変数に制限することは、重み付けされたF1をわずか2.6%の赤と3.0の白で減らし、アルコール、揮発性酸性度、硫酸塩、遊離SO2、塩化物が最も予測的な信号を捉えていることを示している。
EPYC 9K84/H20ノードでの実行時プロファイリングは、急激な効率勾配を示す: グラディエント・ブースティング 平均5回毎の平均12時間、XGBoostとLightGBMは2~3時間、CatBoost 1時間、Random Forestは50分未満である。
そこで我々はRandom Forestを最もコスト効率の良い生産モデルとして、GPU効率の代替としてXGBoostとLightGBMを、オフラインベンチマークの精度天井としてGradient Boostingを推奨する。
完全な文書化されたパイプラインとメートル法セットは、不均衡なマルチクラスのワイン品質予測に関する将来の研究のための再現可能なベースラインを提供する。
関連論文リスト
- AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - Foxtsage vs. Adam: Revolution or Evolution in Optimization? [4.939986309170004]
本研究は、ハイブリッドFOX-TSAとグラディエントDescentを統合した新しいハイブリッド最適化手法であるFoxtsageを導入し、マルチ層パーセプトロンモデルのトレーニングを行う。
実験の結果、Foxtsageは損失平均の42.03%の減少(Foxtsage: 9.508, Adam: 16.402)、損失標準偏差の42.19%の改善(Foxtsage: 20.86, Adam: 36.085)を達成した。
論文 参考訳(メタデータ) (2024-12-20T03:20:58Z) - From Point to probabilistic gradient boosting for claim frequency and severity prediction [1.3812010983144802]
我々は、決定木アルゴリズムの既存の点と確率的勾配を全て向上させる統一的な表記法と対照的に提示する。
クレーム頻度と重大度を5つの公開データセットで比較した。
モデル精度と予測精度の間にトレードオフがないことが分かりました。
論文 参考訳(メタデータ) (2024-12-19T14:50:10Z) - Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-03T17:47:29Z) - SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation [74.32186107058382]
本稿では,テキスト・画像の高速生成を実現するために,SCott(Consistency Distillation)を提案する。
SCottは、訓練済みの教師モデルの通常の微分方程式解法に基づくサンプリングプロセスを学生に蒸留する。
安定拡散V1.5教師によるMSCOCO-2017 5Kデータセットでは、SCottは2ステップのサンプリングステップを持つ21.9のFIDを達成し、1ステップのInstaFlow (23.4)と4ステップのUFOGen (22.1)を上回ります。
論文 参考訳(メタデータ) (2024-03-03T13:08:32Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Explainable AI Integrated Feature Selection for Landslide Susceptibility
Mapping using TreeSHAP [0.0]
データ駆動型アプローチによる地すべり感受性の早期予測は時間の要求である。
地すべりの感受性予測には,XgBoost,LR,KNN,SVM,Adaboostといった最先端の機械学習アルゴリズムを用いた。
XgBoostの最適化バージョンと機能低下の40パーセントは、一般的な評価基準で他のすべての分類器よりも優れています。
論文 参考訳(メタデータ) (2022-01-10T09:17:21Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。