論文の概要: Understanding and Preparing Data of Industrial Processes for Machine
Learning Applications
- arxiv url: http://arxiv.org/abs/2109.03469v1
- Date: Wed, 8 Sep 2021 07:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:43:11.943372
- Title: Understanding and Preparing Data of Industrial Processes for Machine
Learning Applications
- Title(参考訳): 機械学習応用のための産業プロセスの理解とデータ作成
- Authors: Philipp Fleck, Manfred K\"ugel, Michael Kommenda
- Abstract要約: 本稿では, 非線形生産ラインの異なる生産ユニットにおけるセンサの非有効性に起因する, 欠落値の問題に対処する。
データのごく一部が欠落している場合、これらの欠落した値はしばしば暗示される。
本稿では,大量の観測データを除去することなく,利用可能なすべてのデータを活用できる手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial applications of machine learning face unique challenges due to the
nature of raw industry data. Preprocessing and preparing raw industrial data
for machine learning applications is a demanding task that often takes more
time and work than the actual modeling process itself and poses additional
challenges. This paper addresses one of those challenges, specifically, the
challenge of missing values due to sensor unavailability at different
production units of nonlinear production lines. In cases where only a small
proportion of the data is missing, those missing values can often be imputed.
In cases of large proportions of missing data, imputing is often not feasible,
and removing observations containing missing values is often the only option.
This paper presents a technique, that allows to utilize all of the available
data without the need of removing large amounts of observations where data is
only partially available. We do not only discuss the principal idea of the
presented method, but also show different possible implementations that can be
applied depending on the data at hand. Finally, we demonstrate the application
of the presented method with data from a steel production plant.
- Abstract(参考訳): 機械学習の産業応用は、生産業データの性質から、ユニークな課題に直面している。
機械学習アプリケーションのための生の産業データの前処理と準備は、実際のモデリングプロセス自体よりも多くの時間と作業を必要とし、追加の課題を引き起こす。
本稿では, 非線形生産ラインの異なる生産ユニットにおけるセンサの非有効性に起因する, 不足値の課題について述べる。
データのごく一部しか欠落していない場合、欠落した値が暗示されることがある。
大量のデータ欠落の場合、インプットは実現不可能であり、欠落した値を含む観測の除去が唯一の選択肢であることが多い。
本稿では,データの一部しか利用できないような大量の観測を不要にすることなく,利用可能なデータをすべて活用できる手法を提案する。
提案手法の主な考え方を議論するだけでなく,手元のデータにもとづいて適用可能な異なる実装を提示する。
最後に, 鉄鋼製造プラントから得られたデータを用いて, 提案法の適用例を示す。
関連論文リスト
- The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Controllable Image Synthesis of Industrial Data Using Stable Diffusion [2.021800129069459]
本稿では,産業データに基づく汎用事前学習型生成モデルの再利用手法を提案する。
まず、モデルに新しい概念を学習させ、新しいデータ分布を学習させる。
そこで我々は,その生成過程の条件付けを強制的に行ない,よく定義されたトポロジ的特徴を満たす産業用画像を生成する。
論文 参考訳(メタデータ) (2024-01-06T08:09:24Z) - How to Do Machine Learning with Small Data? -- A Review from an
Industrial Perspective [1.443696537295348]
著者らは、"小さなデータ"の一般的な用語とそのエンジニアリングと産業アプリケーションの役割を解釈することに重点を置いている。
小さなデータはビッグデータと比較して様々な特性で定義され、機械学習形式が導入された。
産業アプリケーションにおける小さなデータによる機械学習の5つの重要な課題を提示する。
論文 参考訳(メタデータ) (2023-11-13T07:39:13Z) - Solving Data Quality Problems with Desbordante: a Demo [35.75243108496634]
Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。
産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。
このデモでは、エンドユーザがさまざまなデータ品質問題を解決できるいくつかのシナリオを紹介します。
論文 参考訳(メタデータ) (2023-07-27T15:26:26Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Learnware: Small Models Do Big [69.88234743773113]
自然言語処理やコンピュータビジョンの応用で目覚ましい成果を上げてきた、一般的なビッグモデルパラダイムは、これらの問題にまだ対応していないが、炭素排出量の深刻な源となっている。
この記事では、マシンラーニングモデルをスクラッチから構築する必要がないようにするための学習ソフトウェアパラダイムの概要を紹介します。
論文 参考訳(メタデータ) (2022-10-07T15:55:52Z) - Deep Learning based pipeline for anomaly detection and quality
enhancement in industrial binder jetting processes [68.8204255655161]
異常検出は、通常の値空間とは異なる異常状態、インスタンス、あるいはデータポイントを検出する方法を記述する。
本稿では,産業生産における人工知能へのデータ中心のアプローチに寄与する。
論文 参考訳(メタデータ) (2022-09-21T08:14:34Z) - PROMISSING: Pruning Missing Values in Neural Networks [0.0]
本稿では,ニューラルネットワークの学習と推論の段階において,欠落値(PROMISSing)を抽出する,シンプルで直感的かつ効果的な手法を提案する。
実験の結果, ProMISSing は様々な計算手法と比較して予測性能が良くなることがわかった。
論文 参考訳(メタデータ) (2022-06-03T15:37:27Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z) - MAIN: Multihead-Attention Imputation Networks [4.427447378048202]
本稿では,任意のモデルに適用可能なマルチヘッドアテンションに基づく新しいメカニズムを提案する。
提案手法は、下流タスクの性能を向上させるために、入力データの欠落パターンを誘導的にモデル化する。
論文 参考訳(メタデータ) (2021-02-10T13:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。