論文の概要: Strategic Data Augmentation with CTGAN for Smart Manufacturing:
Enhancing Machine Learning Predictions of Paper Breaks in Pulp-and-Paper
Production
- arxiv url: http://arxiv.org/abs/2311.09333v1
- Date: Wed, 15 Nov 2023 19:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:55:37.980274
- Title: Strategic Data Augmentation with CTGAN for Smart Manufacturing:
Enhancing Machine Learning Predictions of Paper Breaks in Pulp-and-Paper
Production
- Title(参考訳): スマート製造のためのctganによる戦略的データ拡張:パルプ・アンド・ペーパー生産における紙切れの機械学習予測の強化
- Authors: Hamed Khosravi, Sarah Farhadpour, Manikanta Grandhi, Ahmed Shoyeb
Raihan, Srinjoy Das, Imtiaz Ahmed
- Abstract要約: パルプ・アンド・ペーパー産業における予測保守の重要な課題は、製紙工程における紙の破損の頻度である。
本稿では, 紙の破断が比較的稀であるが, 経済的な影響が大きい製紙機から, 運用データを解析する。
本研究では,CTGAN(Conditional Generative Adrial Networks)とSMOTE(Synthetic Minority Oversampling Technique)の協力を得て,新たなデータ拡張フレームワークを実装した。
- 参考スコア(独自算出の注目度): 3.2381236440149257
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A significant challenge for predictive maintenance in the pulp-and-paper
industry is the infrequency of paper breaks during the production process. In
this article, operational data is analyzed from a paper manufacturing machine
in which paper breaks are relatively rare but have a high economic impact.
Utilizing a dataset comprising 18,398 instances derived from a quality
assurance protocol, we address the scarcity of break events (124 cases) that
pose a challenge for machine learning predictive models. With the help of
Conditional Generative Adversarial Networks (CTGAN) and Synthetic Minority
Oversampling Technique (SMOTE), we implement a novel data augmentation
framework. This method ensures that the synthetic data mirrors the distribution
of the real operational data but also seeks to enhance the performance metrics
of predictive modeling. Before and after the data augmentation, we evaluate
three different machine learning algorithms-Decision Trees (DT), Random Forest
(RF), and Logistic Regression (LR). Utilizing the CTGAN-enhanced dataset, our
study achieved significant improvements in predictive maintenance performance
metrics. The efficacy of CTGAN in addressing data scarcity was evident, with
the models' detection of machine breaks (Class 1) improving by over 30% for
Decision Trees, 20% for Random Forest, and nearly 90% for Logistic Regression.
With this methodological advancement, this study contributes to industrial
quality control and maintenance scheduling by addressing rare event prediction
in manufacturing processes.
- Abstract(参考訳): パルプ・アンド・ペーパー産業における予測保守の重要な課題は、製紙工程における紙の破損の頻度である。
本稿では, 紙の破断が比較的稀であるが, 経済的な影響が大きい製紙機から, 運用データを解析する。
品質保証プロトコルから派生した18,398のインスタンスからなるデータセットを利用することで、マシンラーニング予測モデルに挑戦するブレークイベント(124ケース)の不足に対処する。
本研究では,CTGAN(Conditional Generative Adversarial Networks)とSMOTE(Synthetic Minority Oversampling Technique)の協力を得て,新たなデータ拡張フレームワークを実装した。
この方法では, 合成データが実際の運用データの分布を反映するだけでなく, 予測モデルの性能指標の向上も図っている。
データ拡張の前と後、我々は3つの異なる機械学習アルゴリズム、決定木(DT)、ランダムフォレスト(RF)、ロジスティック回帰(LR)を評価した。
CTGAN強化データセットを用いて,予測保守性能指標を大幅に改善した。
データ不足に対処するためのctganの有効性は明らかであり、モデルによるマシンブレークの検出(クラス1)により、決定木では30%以上改善され、ランダムフォレストでは20%、ロジスティック回帰では90%近く向上した。
本研究は, 製造プロセスにおけるまれな事象予測に対処し, 産業品質管理とメンテナンススケジューリングに寄与する。
関連論文リスト
- PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - Comprehensive Study Of Predictive Maintenance In Industries Using Classification Models And LSTM Model [0.0]
この研究は、SVM(Support Vector Machine)、ランダムフォレスト(Random Forest)、ロジスティック回帰(Logistic Regression)、畳み込みニューラルネットワークLSTMベース(Convolutional Neural Network LSTM-based)など、さまざまな機械学習分類手法を掘り下げて、マシンのパフォーマンスを予測し分析することを目的としている。
本研究の主な目的は、精度、精度、リコール、F1スコアなどの要因を考慮して、これらのアルゴリズムの性能を評価し、機械性能を予測・解析することである。
論文 参考訳(メタデータ) (2024-03-15T12:47:45Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - TranDRL: A Transformer-Driven Deep Reinforcement Learning Enabled Prescriptive Maintenance Framework [58.474610046294856]
産業システムは、運用効率を高め、ダウンタイムを減らすための信頼性の高い予測保守戦略を要求する。
本稿では,Transformerモデルに基づくニューラルネットワークと深部強化学習(DRL)アルゴリズムの機能を活用し,システムの保守動作を最適化する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T02:27:54Z) - Advanced Deep Regression Models for Forecasting Time Series Oil
Production [3.1383147856975633]
本研究の目的は、逐次畳み込みと長寿命メモリ(LSTM)ユニットを用いた高度なデータ駆動回帰モデルを開発することである。
LSTMに基づくシーケンス学習モデルは,平均絶対誤差(MAE)とR2スコア(111.16点,0.98点)の1次元畳み込みニューラルネットワーク(CNN)よりも石油生産を予測できることがわかった。
論文 参考訳(メタデータ) (2023-08-30T15:54:06Z) - A Scalable and Efficient Iterative Method for Copying Machine Learning
Classifiers [0.802904964931021]
本稿では,機械学習モデルのコピーのトレーニングや維持に必要な計算資源を大幅に削減する,新しいシーケンシャルなアプローチを提案する。
シーケンシャルアプローチの有効性は、合成データセットと実世界のデータセットによる実験を通じて実証され、正確性を維持したり改善したりしながら、時間とリソースの大幅な削減を示す。
論文 参考訳(メタデータ) (2023-02-06T10:07:41Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Robust Trajectory Prediction against Adversarial Attacks [84.10405251683713]
ディープニューラルネットワーク(DNN)を用いた軌道予測は、自律運転システムにおいて不可欠な要素である。
これらの手法は敵の攻撃に対して脆弱であり、衝突などの重大な結果をもたらす。
本研究では,敵対的攻撃に対する軌道予測モデルを保護するための2つの重要な要素を同定する。
論文 参考訳(メタデータ) (2022-07-29T22:35:05Z) - Masked Self-Supervision for Remaining Useful Lifetime Prediction in
Machine Tools [3.175781028910441]
産業4.0では, 現代製造業現場における残留実用ライフタイム(RUL)の予測が不可欠である。
ディープラーニングのアプローチが利用可能になったことで、これらをRUL予測に活用する大きな可能性と展望が、いくつかのモデルを生み出した。
これはラベルのないデータを利用して、RUL予測のためのディープラーニングモデルを構築するために設計されている。
論文 参考訳(メタデータ) (2022-07-04T06:08:01Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。