論文の概要: How to Do Machine Learning with Small Data? -- A Review from an
Industrial Perspective
- arxiv url: http://arxiv.org/abs/2311.07126v1
- Date: Mon, 13 Nov 2023 07:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:12:56.887149
- Title: How to Do Machine Learning with Small Data? -- A Review from an
Industrial Perspective
- Title(参考訳): 機械学習を小さなデータでどのように行うか?
--産業的視点からのレビュー
- Authors: Ivan Kraljevski, Yong Chul Ju, Dmitrij Ivanov, Constanze Tsch\"ope,
Matthias Wolff
- Abstract要約: 著者らは、"小さなデータ"の一般的な用語とそのエンジニアリングと産業アプリケーションの役割を解釈することに重点を置いている。
小さなデータはビッグデータと比較して様々な特性で定義され、機械学習形式が導入された。
産業アプリケーションにおける小さなデータによる機械学習の5つの重要な課題を提示する。
- 参考スコア(独自算出の注目度): 1.443696537295348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Artificial intelligence experienced a technological breakthrough in science,
industry, and everyday life in the recent few decades. The advancements can be
credited to the ever-increasing availability and miniaturization of
computational resources that resulted in exponential data growth. However,
because of the insufficient amount of data in some cases, employing machine
learning in solving complex tasks is not straightforward or even possible. As a
result, machine learning with small data experiences rising importance in data
science and application in several fields. The authors focus on interpreting
the general term of "small data" and their engineering and industrial
application role. They give a brief overview of the most important industrial
applications of machine learning and small data. Small data is defined in terms
of various characteristics compared to big data, and a machine learning
formalism was introduced. Five critical challenges of machine learning with
small data in industrial applications are presented: unlabeled data, imbalanced
data, missing data, insufficient data, and rare events. Based on those
definitions, an overview of the considerations in domain representation and
data acquisition is given along with a taxonomy of machine learning approaches
in the context of small data.
- Abstract(参考訳): 過去数十年間、人工知能は科学、産業、日常生活で技術的ブレークスルーを経験した。
この進歩は、指数的なデータ成長をもたらす計算資源の可用性と小型化の継続によるものである。
しかし、場合によってはデータ量が不足しているため、複雑なタスクの解決に機械学習を採用することは簡単ではない。
その結果、データサイエンスといくつかの分野における応用において、小さなデータ体験を持つ機械学習の重要性が高まった。
筆者らは,「小型データ」の一般用語とその工学的・産業的役割の解釈に重点を置いている。
彼らは、機械学習と小さなデータの最も重要な産業的応用の概要を説明した。
小さなデータはビッグデータと比較して様々な特性で定義され、機械学習形式が導入された。
産業アプリケーションにおける小さなデータによる機械学習の5つの重要な課題として、ラベルのないデータ、不均衡なデータ、不足したデータ、不十分なデータ、まれなイベントがある。
これらの定義に基づいて、小さなデータのコンテキストにおける機械学習アプローチの分類とともに、ドメイン表現とデータ取得における考慮事項の概要が与えられる。
関連論文リスト
- AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。
データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。
次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (2024-04-15T12:01:42Z) - A Vision for Semantically Enriched Data Science [19.604667287258724]
ドメイン知識の活用やデータセマンティクスといった重要な分野は、ほとんど自動化されていない分野です。
データサイエンスの自動化のための新しいツールと組み合わせて、データに対する“セマンティック”な理解と推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つか、私たちは考えています。
論文 参考訳(メタデータ) (2023-03-02T16:03:12Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Open Environment Machine Learning [84.90891046882213]
従来の機械学習研究は、学習プロセスの重要な要素が不変であるような近世界のシナリオを想定している。
本稿では,新しいクラスを創出する技術,デクリメンタル/インクリメンタルな特徴,データ分散の変化,学習目標の変化,理論的諸問題について概説する。
論文 参考訳(メタデータ) (2022-06-01T11:57:56Z) - Maximizing information from chemical engineering data sets: Applications
to machine learning [61.442473332320176]
化学工学の応用において、古典的な人工知能のアプローチを適用するのが難しくなる4つの特徴を同定する。
それぞれのデータ特性について、これらのデータ特性が生じるアプリケーションについて論じ、現在の化学工学研究が、これらの課題を組み込むために、データサイエンスと機械学習の分野をどのように拡張しているかを示す。
論文 参考訳(メタデータ) (2022-01-25T01:25:45Z) - Data Collection and Quality Challenges in Deep Learning: A Data-Centric
AI Perspective [16.480530590466472]
データ中心のAIプラクティスが主流になりつつある。
現実世界の多くのデータセットは小さく、汚く、偏りがあり、毒まみれである。
データ品質については、データ検証とデータクリーニング技術について研究する。
論文 参考訳(メタデータ) (2021-12-13T03:57:36Z) - Understanding and Preparing Data of Industrial Processes for Machine
Learning Applications [0.0]
本稿では, 非線形生産ラインの異なる生産ユニットにおけるセンサの非有効性に起因する, 欠落値の問題に対処する。
データのごく一部が欠落している場合、これらの欠落した値はしばしば暗示される。
本稿では,大量の観測データを除去することなく,利用可能なすべてのデータを活用できる手法を提案する。
論文 参考訳(メタデータ) (2021-09-08T07:39:11Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Data science on industrial data -- Today's challenges in brown field
applications [0.0]
本論文は,ストックマシンの現場での作業における技術の現状と今後の展望について述べる。
この論文の主な焦点はデータ収集であり、ほとんどの人が予想するよりも扱いにくい。
機械学習アプリケーションのデータ品質は、実験室を去ると問題になる。
論文 参考訳(メタデータ) (2020-06-10T10:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。