論文の概要: Wine Quality Prediction with Ensemble Trees: A Unified, Leak-Free Comparative Study
- arxiv url: http://arxiv.org/abs/2506.06327v1
- Date: Fri, 30 May 2025 17:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.064919
- Title: Wine Quality Prediction with Ensemble Trees: A Unified, Leak-Free Comparative Study
- Title(参考訳): アンサンブル木を用いたワインの品質予測 : 統一された漏れのない比較研究
- Authors: Zilang Chen,
- Abstract要約: 我々は,5つのアンサンブル学習者(ランドムフォレスト,グラディエントブースティング,XGBoost,LightGBM,CatBoost)を標準のVinho Verde赤と白のデータセットに統一した最初のベンチマークを提示する。
グラディエントブースティングは最高精度(赤はF1 0.693 +/- 0.028、白は0.664 +/- 0.016)を達成し、続いてランダムフォレストとXGBoostの3ポイント以内である。
我々は、最もコスト効率の良い生産モデルとしてRandom Forest、GPU効率の良い代替品としてXGBoostとLightGBM、オフラインベンチマークの精度天井としてGradient Boostingを推奨する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and reproducible wine-quality assessment is critical for production control yet remains dominated by subjective, labour-intensive tasting panels. We present the first unified benchmark of five ensemble learners (Random Forest, Gradient Boosting, XGBoost, LightGBM, CatBoost) on the canonical Vinho Verde red- and white-wine datasets (1,599 and 4,898 instances, 11 physicochemical attributes). Our leakage-free workflow employs an 80:20 stratified train-test split, five-fold StratifiedGroupKFold within the training set, per-fold standardisation, SMOTE-Tomek resampling, inverse-frequency cost weighting, Optuna hyper-parameter search (120-200 trials per model) and a two-stage feature-selection refit. Final scores on untouched test sets are reported with weighted F1 as the headline metric. Gradient Boosting achieves the highest accuracy (weighted F1 0.693 +/- 0.028 for red and 0.664 +/- 0.016 for white), followed within three percentage points by Random Forest and XGBoost. Limiting each model to its five top-ranked variables lowers dimensionality by 55 percent while reducing weighted F1 by only 2.6 percentage points for red and 3.0 percentage points for white, indicating that alcohol, volatile acidity, sulphates, free SO2 and chlorides capture most predictive signal. Runtime profiling on an EPYC 9K84/H20 node reveals a steep efficiency gradient: Gradient Boosting averages 12 h per five-fold study, XGBoost and LightGBM require 2-3 h, CatBoost 1 h, and Random Forest under 50 min. We therefore recommend Random Forest as the most cost-effective production model, XGBoost and LightGBM as GPU-efficient alternatives, and Gradient Boosting as the accuracy ceiling for offline benchmarking. The fully documented pipeline and metric set provide a reproducible baseline for future work on imbalanced multi-class wine-quality prediction.
- Abstract(参考訳): 正確な再現性のあるワイン品質評価は生産管理にとって重要であるが、主観的で労働集約的な味付けパネルが支配している。
我々は,5つのアンサンブル学習者(Random Forest, Gradient Boosting, XGBoost, LightGBM, CatBoost)を標準のVinho Verde赤および白ワインデータセット(1,599,4,898インスタンス,物理化学的属性11)に統一したベンチマークを行った。
我々のリークフリーワークフローは、80:20の階層化された列車テスト分割、5倍のStratifiedGroupKFoldをトレーニングセット、一組の標準化、SMOTE-Tomekリサンプリング、逆周波数コスト重み付け、Optuna hyper-parameter search(モデル毎120-200トライアル)、2段階の機能選択の調整に採用しています。
非タッチテストセットの最終的なスコアは、ヘッドラインメトリックとして重み付きF1で報告される。
グラディエントブースティングは最高精度(赤はF1 0.693 +/- 0.028、白は0.664 +/- 0.016)を達成し、続いてランダムフォレストとXGBoostの3ポイント以内である。
それぞれのモデルを上位5つの変数に制限することは、重み付けされたF1をわずか2.6%の赤と3.0の白で減らし、アルコール、揮発性酸性度、硫酸塩、遊離SO2、塩化物が最も予測的な信号を捉えていることを示している。
EPYC 9K84/H20ノードでの実行時プロファイリングは、急激な効率勾配を示す: グラディエント・ブースティング 平均5回毎の平均12時間、XGBoostとLightGBMは2~3時間、CatBoost 1時間、Random Forestは50分未満である。
そこで我々はRandom Forestを最もコスト効率の良い生産モデルとして、GPU効率の代替としてXGBoostとLightGBMを、オフラインベンチマークの精度天井としてGradient Boostingを推奨する。
完全な文書化されたパイプラインとメートル法セットは、不均衡なマルチクラスのワイン品質予測に関する将来の研究のための再現可能なベースラインを提供する。
関連論文リスト
- ML-based Short Physical Performance Battery future score prediction based on questionnaire data [0.0]
アンケートデータに基づいて,SPPB(Short Physical Performance Battery)スコアを4年間の地平線で予測する可能性を分析した。
最良の結果はXGBoost(絶対誤差0.79点)で達成された。
論文 参考訳(メタデータ) (2025-08-07T10:09:04Z) - Embedding Is (Almost) All You Need: Retrieval-Augmented Inference for Generalizable Genomic Prediction Tasks [2.456116718524414]
埋め込みベースのパイプラインは、競争力のあるパフォーマンスを実現することができることを示す。
エンハンサー分類では、zCurveと組み合わされた埋め込みは0.68精度(微調整では0.58)を達成する。
非TATAプロモーター分類では、zCurveまたはGC含有量によるDNABERT-2の埋め込みは0.85精度(微調整0.89)に達する。
論文 参考訳(メタデータ) (2025-08-06T14:15:48Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - Foxtsage vs. Adam: Revolution or Evolution in Optimization? [4.939986309170004]
本研究は、ハイブリッドFOX-TSAとグラディエントDescentを統合した新しいハイブリッド最適化手法であるFoxtsageを導入し、マルチ層パーセプトロンモデルのトレーニングを行う。
実験の結果、Foxtsageは損失平均の42.03%の減少(Foxtsage: 9.508, Adam: 16.402)、損失標準偏差の42.19%の改善(Foxtsage: 20.86, Adam: 36.085)を達成した。
論文 参考訳(メタデータ) (2024-12-20T03:20:58Z) - From Point to probabilistic gradient boosting for claim frequency and severity prediction [1.3812010983144802]
我々は、決定木アルゴリズムの既存の点と確率的勾配を全て向上させる統一的な表記法と対照的に提示する。
クレーム頻度と重大度を5つの公開データセットで比較した。
モデル精度と予測精度の間にトレードオフがないことが分かりました。
論文 参考訳(メタデータ) (2024-12-19T14:50:10Z) - Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-03T17:47:29Z) - SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation [74.32186107058382]
本稿では,テキスト・画像の高速生成を実現するために,SCott(Consistency Distillation)を提案する。
SCottは、訓練済みの教師モデルの通常の微分方程式解法に基づくサンプリングプロセスを学生に蒸留する。
安定拡散V1.5教師によるMSCOCO-2017 5Kデータセットでは、SCottは2ステップのサンプリングステップを持つ21.9のFIDを達成し、1ステップのInstaFlow (23.4)と4ステップのUFOGen (22.1)を上回ります。
論文 参考訳(メタデータ) (2024-03-03T13:08:32Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - ProBoost: a Boosting Method for Probabilistic Classifiers [55.970609838687864]
ProBoostは確率的分類器のための新しいブースティングアルゴリズムである。
各トレーニングサンプルの不確実性を使用して、最も困難で不確実なものを決定する。
これは、最も不確実性が高いと判明したサンプルに徐々に焦点をあてる配列を生成する。
論文 参考訳(メタデータ) (2022-09-04T12:49:20Z) - BBTv2: Pure Black-Box Optimization Can Be Comparable to Gradient Descent
for Few-Shot Learning [83.26610968655815]
Black-Box Tuningは、言語モデルの入力に先立って、連続的なプロンプトトークンを最適化するためのデリバティブフリーなアプローチである。
BBTv2は、言語モデルをグラデーションベースの最適化に匹敵する結果を得るために駆動する、純粋なブラックボックス最適化手法である。
論文 参考訳(メタデータ) (2022-05-23T11:10:19Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Explainable AI Integrated Feature Selection for Landslide Susceptibility
Mapping using TreeSHAP [0.0]
データ駆動型アプローチによる地すべり感受性の早期予測は時間の要求である。
地すべりの感受性予測には,XgBoost,LR,KNN,SVM,Adaboostといった最先端の機械学習アルゴリズムを用いた。
XgBoostの最適化バージョンと機能低下の40パーセントは、一般的な評価基準で他のすべての分類器よりも優れています。
論文 参考訳(メタデータ) (2022-01-10T09:17:21Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。