論文の概要: Data Smells: Categories, Causes and Consequences, and Detection of
Suspicious Data in AI-based Systems
- arxiv url: http://arxiv.org/abs/2203.10384v1
- Date: Sat, 19 Mar 2022 19:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:09:19.976078
- Title: Data Smells: Categories, Causes and Consequences, and Detection of
Suspicious Data in AI-based Systems
- Title(参考訳): データスメル:AIベースのシステムにおけるカテゴリ、原因、原因、および注目データの検出
- Authors: Harald Foidl, Michael Felderer, Rudolf Ramler
- Abstract要約: 記事では、AIベースのシステムのコンテキストにおいて、その原因、結果、検出、使用に関するデータの臭いと精巧さを概念化している。
さらに、36のデータの臭いのカタログを3つのカテゴリ(可読性スメル、可視性スメル、一貫性スメル)に分けて提示する。
- 参考スコア(独自算出の注目度): 3.793596705511303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High data quality is fundamental for today's AI-based systems. However,
although data quality has been an object of research for decades, there is a
clear lack of research on potential data quality issues (e.g., ambiguous,
extraneous values). These kinds of issues are latent in nature and thus often
not obvious. Nevertheless, they can be associated with an increased risk of
future problems in AI-based systems (e.g., technical debt, data-induced
faults). As a counterpart to code smells in software engineering, we refer to
such issues as Data Smells. This article conceptualizes data smells and
elaborates on their causes, consequences, detection, and use in the context of
AI-based systems. In addition, a catalogue of 36 data smells divided into three
categories (i.e., Believability Smells, Understandability Smells, Consistency
Smells) is presented. Moreover, the article outlines tool support for detecting
data smells and presents the result of an initial smell detection on more than
240 real-world datasets.
- Abstract(参考訳): 今日のAIベースのシステムには、高いデータ品質が不可欠だ。
しかし、データ品質は何十年も研究の対象であったが、潜在的なデータ品質問題(例えば曖昧で余分な値)に関する研究が明らかに欠如している。
この種の問題は自然に潜んでいるため、しばしば明らかではない。
それでも、AIベースのシステム(技術的負債、データ誘発障害など)における将来の問題の増加に関連付けられる。
ソフトウェア工学におけるコードの臭いの代替として、Data Smellsのような問題を参照する。
この記事では、AIベースのシステムのコンテキストにおけるその原因、結果、検出、使用について、データの臭いと精巧さを概念化する。
さらに,36種類のデータ臭いのカタログを,3つのカテゴリ(信頼臭,理解臭,一貫性臭)に分類した。
さらに, 240以上の実世界のデータセットにおいて, データ臭い検出のためのツールサポートを概説し, 最初の臭い検出の結果を提示する。
関連論文リスト
- Towards Understanding the Impact of Data Bugs on Deep Learning Models in Software Engineering [13.17302533571231]
ディープラーニング(DL)システムは、トレーニングデータを含む多くのソースからのバグがちである。
既存の文献では、トレーニングデータのバグが非常に多いことが示唆されている。
本稿では,コードベース,テキストベース,メトリックベースの3種類のデータについて検討する。
論文 参考訳(メタデータ) (2024-11-19T00:28:20Z) - Data Issues in Industrial AI System: A Meta-Review and Research Strategy [10.540603300770885]
人工知能(AI)は、産業システムにおいてますます重要な役割を担っている。
近年、さまざまな業界でAIを採用する傾向にあるが、実際のAIの採用は認識されるほど発展していない。
これらのデータ問題にどのように対処するかは、業界と学術の両方に直面する重要な懸念事項である。
論文 参考訳(メタデータ) (2024-06-22T08:36:59Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - On some elusive aspects of databases hindering AI based discovery: A
case study on superconducting materials [0.0]
本論では,本質的な偏りのあるサンプル選択,隠れ変数の可能性,データ年齢の相違という3つの側面について論じる。
我々の知る限り、本質的なデータバイアスの存在を検知し定量化できる最初の戦略を提案し、検証する。
論文 参考訳(メタデータ) (2023-11-16T13:38:00Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Data Smells in Public Datasets [7.1460275491017144]
我々は、機械学習システムにおける問題の早期兆候を示すために使用できる、新しいデータ臭いのカタログを紹介する。
データセットにおけるデータ品質の問題の頻度を理解するために、25の公開データセットを分析し、14のデータ臭いを特定します。
論文 参考訳(メタデータ) (2022-03-15T15:44:20Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z) - Data Mining with Big Data in Intrusion Detection Systems: A Systematic
Literature Review [68.15472610671748]
クラウドコンピューティングは、複雑で高性能でスケーラブルな計算のために、強力で必要不可欠な技術になっている。
データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めている。
ビッグデータ設定における侵入検知システム(IDS)の設計と展開が重要視されている。
論文 参考訳(メタデータ) (2020-05-23T20:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。