論文の概要: Prediction of Coffee Ratings Based On Influential Attributes Using SelectKBest and Optimal Hyperparameters
- arxiv url: http://arxiv.org/abs/2509.18124v1
- Date: Wed, 10 Sep 2025 20:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.388469
- Title: Prediction of Coffee Ratings Based On Influential Attributes Using SelectKBest and Optimal Hyperparameters
- Title(参考訳): SelectKBest と Optimal Hyperparameter を用いたインフルエンシャル属性に基づくコーヒーレーティングの予測
- Authors: Edmund Agyemang, Lawrence Agbota, Vincent Agbenyeavu, Peggy Akabuah, Bismark Bimpong, Christopher Attafuah,
- Abstract要約: この研究は、コーヒーの品質評価に寄与する主要な要因を特定する。
6種類のモデル(決定木, KNearest Nebors, Multi-layer Perceptron, Random Forest, Extra Trees, XGBoost)を訓練,評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores the application of supervised machine learning algorithms to predict coffee ratings based on a combination of influential textual and numerical attributes extracted from user reviews. Through careful data preprocessing including text cleaning, feature extraction using TF-IDF, and selection with SelectKBest, the study identifies key factors contributing to coffee quality assessments. Six models (Decision Tree, KNearest Neighbors, Multi-layer Perceptron, Random Forest, Extra Trees, and XGBoost) were trained and evaluated using optimized hyperparameters. Model performance was assessed primarily using F1-score, Gmean, and AUC metrics. Results demonstrate that ensemble methods (Extra Trees, Random Forest, and XGBoost), as well as Multi-layer Perceptron, consistently outperform simpler classifiers (Decision Trees and K-Nearest Neighbors) in terms of evaluation metrics such as F1 scores, G-mean and AUC. The findings highlight the essence of rigorous feature selection and hyperparameter tuning in building robust predictive systems for sensory product evaluation, offering a data driven approach to complement traditional coffee cupping by expertise of trained professionals.
- Abstract(参考訳): 本研究では,ユーザレビューから抽出した影響力のあるテキストと数値属性の組み合わせに基づいて,教師付き機械学習アルゴリズムによるコーヒー評価の予測について検討した。
本研究は, テキストクリーニング, TF-IDFを用いた特徴抽出, SelectKBestによる選択などのデータ前処理を通じて, コーヒーの品質評価に寄与する重要な要因を明らかにする。
6種類のモデル(決定木、KNearest Nebors、多層パーセプトロン、ランダムフォレスト、エクストラツリー、XGBoost)を最適化ハイパーパラメータを用いて訓練し評価した。
モデルパフォーマンスは、主にF1スコア、Gmean、AUCメトリクスを使用して評価された。
その結果, アンサンブル法(Extra Trees, Random Forest, XGBoost)と多層パーセプトロンは, F1スコア, G-mean, AUCなどの評価指標において, より単純な分類法(決定木, K-Nearest Neighbors)よりも一貫して優れていた。
この発見は、感覚製品評価のための堅牢な予測システムを構築する上で、厳密な特徴選択とハイパーパラメータチューニングの本質を強調し、訓練された専門家の専門知識による伝統的なコーヒーカップングを補完するデータ駆動アプローチを提供する。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring [16.38771834692938]
より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、ブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理性データと合理性選好データを作成する。
論文 参考訳(メタデータ) (2024-06-28T14:33:05Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Machine Learning-Assisted Pattern Recognition Algorithms for Estimating
Ultimate Tensile Strength in Fused Deposition Modeled Polylactic Acid
Specimens [0.0]
混合沈着モデル(FDM)プロセスを用いて作製したポリ乳酸(PLA)試料の最大引張強度(UTS)を推定するための教師付き機械学習アルゴリズムの適用について検討した。
主な目的は、ロジスティック分類(Logistic Classification)、グラディエントブースティング分類(Gradient Boosting Classification)、決定木(Decision Tree)、K-Nearest Neighbor(K-Nearest Neighbor)の4つの異なる分類アルゴリズムの精度と有効性を評価することである。
その結果、決定木とK-Nearest NeighborアルゴリズムはともにF1スコア0.71を達成したが、KNNアルゴリズムはAUC(Area Under the Curve)スコア0.79を達成し、他のアルゴリズムを上回った。
論文 参考訳(メタデータ) (2023-07-13T11:10:22Z) - An Evaluation Study of Generative Adversarial Networks for Collaborative
Filtering [75.83628561622287]
本研究は、原論文で発表された結果の再現に成功し、CFGANフレームワークと原評価で使用されるモデルとの相違が与える影響について論じる。
この研究は、CFGANと単純でよく知られた適切に最適化されたベースラインの選択を比較した実験的な分析をさらに拡張し、CFGANは高い計算コストにもかかわらず、それらに対して一貫して競合していないことを観察した。
論文 参考訳(メタデータ) (2022-01-05T20:53:27Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。