論文の概要: Data Quality in Edge Machine Learning: A State-of-the-Art Survey
- arxiv url: http://arxiv.org/abs/2406.02600v1
- Date: Sat, 1 Jun 2024 23:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 23:39:37.247638
- Title: Data Quality in Edge Machine Learning: A State-of-the-Art Survey
- Title(参考訳): エッジ機械学習におけるデータ品質:現状調査
- Authors: Mohammed Djameleddine Belgoumri, Mohamed Reda Bouadjenek, Sunil Aryal, Hakim Hacid,
- Abstract要約: 機械学習(ML)を使ってトレーニングされたデータ駆動人工知能(AI)システムは、私たちの生活の絶え間ない部分を形成している。
一方で、これらのシステムの影響は、特にトレーニングに使用されるデータにおいて、高い品質の基準を課している。
一方、エッジコンピューティングとIoTデバイスの普及により、データ品質(DQ)の標準を確立し維持することがより困難になる。
- 参考スコア(独自算出の注目度): 2.8449839307925955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven Artificial Intelligence (AI) systems trained using Machine Learning (ML) are shaping an ever-increasing (in size and importance) portion of our lives, including, but not limited to, recommendation systems, autonomous driving technologies, healthcare diagnostics, financial services, and personalized marketing. On the one hand, the outsized influence of these systems imposes a high standard of quality, particularly in the data used to train them. On the other hand, establishing and maintaining standards of Data Quality (DQ) becomes more challenging due to the proliferation of Edge Computing and Internet of Things devices, along with their increasing adoption for training and deploying ML models. The nature of the edge environment -- characterized by limited resources, decentralized data storage, and processing -- exacerbates data-related issues, making them more frequent, severe, and difficult to detect and mitigate. From these observations, it follows that DQ research for edge ML is a critical and urgent exploration track for the safety and robust usefulness of present and future AI systems. Despite this fact, DQ research for edge ML is still in its infancy. The literature on this subject remains fragmented and scattered across different research communities, with no comprehensive survey to date. Hence, this paper aims to fill this gap by providing a global view of the existing literature from multiple disciplines that can be grouped under the umbrella of DQ for edge ML. Specifically, we present a tentative definition of data quality in Edge computing, which we use to establish a set of DQ dimensions. We explore each dimension in detail, including existing solutions for mitigation.
- Abstract(参考訳): 機械学習(ML)を使ってトレーニングされたデータ駆動人工知能(AI)システムは、リコメンデーションシステム、自動運転技術、医療診断、金融サービス、パーソナライズされたマーケティングなど、私たちの生活の絶え間なく増加する部分(サイズと重要性)を形作っている。
一方で、これらのシステムの影響は、特にトレーニングに使用されるデータにおいて、高い品質の基準を課している。
一方、エッジコンピューティングとIoTデバイスの普及により、データ品質(DQ)の標準を確立し、維持することが難しくなり、MLモデルのトレーニングとデプロイへの採用が増加している。
限られたリソース、分散データストレージ、処理によって特徴づけられるエッジ環境の性質は、データ関連の問題を悪化させ、より頻繁に、深刻で、検出と緩和が困難になる。
これらの観察から、エッジMLのDQ研究は、現在および将来のAIシステムの安全性と堅牢性のための、重要かつ緊急な探索トラックであることが示された。
この事実にもかかわらず、エッジMLのDQ研究はまだ初期段階にある。
この主題に関する文献は、現在も断片化され、様々な研究コミュニティに分散しており、現在まで包括的な調査は行われていない。
そこで本稿は,エッジMLのためのDQの傘の下でグループ化できる複数の分野から,既存の文献のグローバルなビューを提供することによって,このギャップを埋めることを目的としている。
具体的には、エッジコンピューティングにおけるデータ品質の仮定義を示し、DQ次元のセットを確立するために使用する。
我々は、既存の緩和ソリューションを含む、各次元を詳細に探求する。
関連論文リスト
- A Survey on Data Quality Dimensions and Tools for Machine Learning [1.6078134198754157]
機械学習(ML)技術は、私たちの社会の事実上のあらゆる面で重要なものになっています。
探索的データ分析(EDA)やクロスバリデーション(CV)といった従来の手法は、データ中心AIにおける課題に直面している。
本調査では,過去5年間の17のDQ評価・改善ツールについて概観する。
論文 参考訳(メタデータ) (2024-06-28T02:41:33Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - EdgeLeakage: Membership Information Leakage in Distributed Edge Intelligence Systems [7.825521416085229]
分散エッジノードは、処理されていないデータを集約し、低送信レイテンシとリアルタイムデータ処理能力を維持できるようにデータ分析を容易にする。
近年,これらのエッジノードは分散機械学習モデルの実装を容易にするために進化している。
エッジインテリジェンスの世界では、機械学習モデルに対する多数のセキュリティとプライバシの脅威に対する感受性が明らかになっている。
本稿では,分散エッジインテリジェンスシステムにおけるメンバシップ推論リークの問題に対処する。
論文 参考訳(メタデータ) (2024-03-08T09:28:39Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Machine Learning for Massive Industrial Internet of Things [69.52379407906017]
モノのインターネット(IIoT)は、モノのインターネット技術を産業環境に統合することで、将来の製造施設に革命をもたらします。
大規模なIIoTデバイスのデプロイでは、無線ネットワークがさまざまなQoS(Quality-of-Service)要件でユビキタス接続をサポートすることは困難である。
まず、一般的な非クリティカルかつクリティカルなIIoTユースケースの要件を要約します。
次に、大規模なIIoTシナリオと対応する機械学習ソリューションのユニークな特性を、その制限と潜在的な研究方向で識別します。
論文 参考訳(メタデータ) (2021-03-10T20:10:53Z) - Federated Edge Learning : Design Issues and Challenges [1.916348196696894]
Federated Learning(FL)は分散機械学習技術であり、各デバイスはそのローカルトレーニングデータに基づいて勾配を独立に計算することで学習モデルに寄与する。
FLをネットワークエッジに実装することは、システムとデータの不均一性とリソースの制約のために難しい。
本稿では、今後の研究方向性の指針として、データ認識スケジューリングのための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-31T19:56:36Z) - Data Mining with Big Data in Intrusion Detection Systems: A Systematic
Literature Review [68.15472610671748]
クラウドコンピューティングは、複雑で高性能でスケーラブルな計算のために、強力で必要不可欠な技術になっている。
データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めている。
ビッグデータ設定における侵入検知システム(IDS)の設計と展開が重要視されている。
論文 参考訳(メタデータ) (2020-05-23T20:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。