論文の概要: Utilising Explainable Techniques for Quality Prediction in a Complex Textiles Manufacturing Use Case
- arxiv url: http://arxiv.org/abs/2407.18544v1
- Date: Fri, 26 Jul 2024 06:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:10:09.969533
- Title: Utilising Explainable Techniques for Quality Prediction in a Complex Textiles Manufacturing Use Case
- Title(参考訳): 複合織物製造における品質予測のための説明可能な技術の利用
- Authors: Briony Forsberg, Dr Henry Williams, Prof Bruce MacDonald, Tracy Chen, Dr Reza Hamzeh, Dr Kirstine Hulse,
- Abstract要約: 本稿では, 複合織物製造データセットにおける製品故障事例を説明可能な手法を用いて分類する手法を開発した。
精度と説明可能性のトレードオフを調べたところ,3種類の木に基づく分類アルゴリズムが評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper develops an approach to classify instances of product failure in a complex textiles manufacturing dataset using explainable techniques. The dataset used in this study was obtained from a New Zealand manufacturer of woollen carpets and rugs. In investigating the trade-off between accuracy and explainability, three different tree-based classification algorithms were evaluated: a Decision Tree and two ensemble methods, Random Forest and XGBoost. Additionally, three feature selection methods were also evaluated: the SelectKBest method, using chi-squared as the scoring function, the Pearson Correlation Coefficient, and the Boruta algorithm. Not surprisingly, the ensemble methods typically produced better results than the Decision Tree model. The Random Forest model yielded the best results overall when combined with the Boruta feature selection technique. Finally, a tree ensemble explaining technique was used to extract rule lists to capture necessary and sufficient conditions for classification by a trained model that could be easily interpreted by a human. Notably, several features that were in the extracted rule lists were statistical features and calculated features that were added to the original dataset. This demonstrates the influence that bringing in additional information during the data preprocessing stages can have on the ultimate model performance.
- Abstract(参考訳): 本稿では, 複合織物製造データセットにおける製品故障事例を説明可能な手法を用いて分類する手法を開発した。
この研究で使用されたデータセットは、ニュージーランドの毛むくじゃらのカーペットとラグの製造者から得られた。
精度と説明可能性のトレードオフを検討するために,3種類の木分類アルゴリズム,決定木とランダムフォレストとXGBoostの2つのアンサンブル手法を評価した。
さらに、スコア関数としてchi-squaredを用いたSelectKBest法、ピアソン相関係数、ボルタアルゴリズムの3つの特徴選択法も評価した。
当然のことながら、アンサンブル法は典型的には決定木モデルよりも優れた結果を生み出した。
ランダムフォレストモデルでは,ボルタの特徴選択技術と組み合わせて総合的に最高の結果を得た。
最後に,ヒトが容易に解釈できる学習モデルにより,分類に必要な,十分な条件を把握するためのルールリストを抽出するために,ツリーアンサンブル説明法が用いられた。
特に、抽出されたルールリストに含まれるいくつかの特徴は、元のデータセットに追加された統計的特徴と計算された特徴であった。
これは、データ前処理の段階で追加情報をもたらすことが、究極のモデルパフォーマンスに与える影響を示している。
関連論文リスト
- A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - A Unified Approach to Extract Interpretable Rules from Tree Ensembles via Integer Programming [2.1408617023874443]
木アンサンブル法は、教師付き分類と回帰タスクにおいて有効であることが知られている。
我々の研究は、訓練された木アンサンブルから最適化されたルールのリストを抽出することを目的としており、利用者に凝縮された解釈可能なモデルを提供する。
論文 参考訳(メタデータ) (2024-06-30T22:33:47Z) - Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning [53.241569810013836]
本稿では,大規模言語モデル(LLM)を用いて,効率的な特徴生成ルールを同定するフレームワークを提案する。
我々は、自然言語で容易に表現できるため、この推論情報を伝達するために決定木を使用します。
OCTreeは様々なベンチマークで様々な予測モデルの性能を継続的に向上させる。
論文 参考訳(メタデータ) (2024-06-12T08:31:34Z) - Learning accurate and interpretable decision trees [27.203303726977616]
我々は、同じドメインから繰り返しデータにアクセスして決定木学習アルゴリズムを設計するためのアプローチを開発する。
本研究では,ベイズ決定木学習における事前パラメータのチューニングの複雑さについて検討し,その結果を決定木回帰に拡張する。
また、学習した決定木の解釈可能性について検討し、決定木を用いた説明可能性と精度のトレードオフを最適化するためのデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-24T20:10:10Z) - A Comparison of Modeling Preprocessing Techniques [0.0]
本稿では,構造化データに対する予測性能の観点から,各種データ処理手法の性能を比較した。
様々な構造、相互作用、複雑さの3つのデータセットが構築された。
特徴選択,分類的ハンドリング,ヌル計算のいくつかの手法を比較した。
論文 参考訳(メタデータ) (2023-02-23T14:11:08Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Explaining random forest prediction through diverse rulesets [0.0]
Local Tree eXtractor (LTreeX)は、与えられたテストインスタンスのフォレスト予測を、いくつかの異なるルールで説明することができる。
提案手法は予測性能の点で他の説明可能な手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-03-29T12:54:57Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Modeling Text with Decision Forests using Categorical-Set Splits [2.434796198711328]
軸方向決定林では、入力例をルートする「決定」は特徴空間の1次元における条件の評価の結果である。
分類的特徴に特有な条件を定義し,それを学習するためのアルゴリズムを提案する。
我々のアルゴリズムは訓練中は効率的であり、結果の条件はQuickScorer推論アルゴリズムの拡張により高速に評価できる。
論文 参考訳(メタデータ) (2020-09-21T16:16:35Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。