論文の概要: Data Smells: Categories, Causes and Consequences, and Detection of
Suspicious Data in AI-based Systems
- arxiv url: http://arxiv.org/abs/2203.10384v1
- Date: Sat, 19 Mar 2022 19:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:09:19.976078
- Title: Data Smells: Categories, Causes and Consequences, and Detection of
Suspicious Data in AI-based Systems
- Title(参考訳): データスメル:AIベースのシステムにおけるカテゴリ、原因、原因、および注目データの検出
- Authors: Harald Foidl, Michael Felderer, Rudolf Ramler
- Abstract要約: 記事では、AIベースのシステムのコンテキストにおいて、その原因、結果、検出、使用に関するデータの臭いと精巧さを概念化している。
さらに、36のデータの臭いのカタログを3つのカテゴリ(可読性スメル、可視性スメル、一貫性スメル)に分けて提示する。
- 参考スコア(独自算出の注目度): 3.793596705511303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High data quality is fundamental for today's AI-based systems. However,
although data quality has been an object of research for decades, there is a
clear lack of research on potential data quality issues (e.g., ambiguous,
extraneous values). These kinds of issues are latent in nature and thus often
not obvious. Nevertheless, they can be associated with an increased risk of
future problems in AI-based systems (e.g., technical debt, data-induced
faults). As a counterpart to code smells in software engineering, we refer to
such issues as Data Smells. This article conceptualizes data smells and
elaborates on their causes, consequences, detection, and use in the context of
AI-based systems. In addition, a catalogue of 36 data smells divided into three
categories (i.e., Believability Smells, Understandability Smells, Consistency
Smells) is presented. Moreover, the article outlines tool support for detecting
data smells and presents the result of an initial smell detection on more than
240 real-world datasets.
- Abstract(参考訳): 今日のAIベースのシステムには、高いデータ品質が不可欠だ。
しかし、データ品質は何十年も研究の対象であったが、潜在的なデータ品質問題(例えば曖昧で余分な値)に関する研究が明らかに欠如している。
この種の問題は自然に潜んでいるため、しばしば明らかではない。
それでも、AIベースのシステム(技術的負債、データ誘発障害など)における将来の問題の増加に関連付けられる。
ソフトウェア工学におけるコードの臭いの代替として、Data Smellsのような問題を参照する。
この記事では、AIベースのシステムのコンテキストにおけるその原因、結果、検出、使用について、データの臭いと精巧さを概念化する。
さらに,36種類のデータ臭いのカタログを,3つのカテゴリ(信頼臭,理解臭,一貫性臭)に分類した。
さらに, 240以上の実世界のデータセットにおいて, データ臭い検出のためのツールサポートを概説し, 最初の臭い検出の結果を提示する。
関連論文リスト
- On some elusive aspects of databases hindering AI based discovery: A
case study on superconducting materials [0.0]
本論では,本質的な偏りのあるサンプル選択,隠れ変数の可能性,データ年齢の相違という3つの側面について論じる。
我々の知る限り、本質的なデータバイアスの存在を検知し定量化できる最初の戦略を提案し、検証する。
論文 参考訳(メタデータ) (2023-11-16T13:38:00Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Data Smells in Public Datasets [7.1460275491017144]
我々は、機械学習システムにおける問題の早期兆候を示すために使用できる、新しいデータ臭いのカタログを紹介する。
データセットにおけるデータ品質の問題の頻度を理解するために、25の公開データセットを分析し、14のデータ臭いを特定します。
論文 参考訳(メタデータ) (2022-03-15T15:44:20Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z) - Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文 参考訳(メタデータ) (2020-11-12T16:06:01Z) - Smart Anomaly Detection in Sensor Systems: A Multi-Perspective Review [0.0]
異常検出は、期待される振る舞いから著しく逸脱するデータパターンを特定することに関わる。
データ分析からe-health、サイバーセキュリティ、予測メンテナンス、障害防止、産業自動化に至るまで、幅広いアプリケーション領域があるため、これは重要な研究課題である。
本稿では,センサシステムの特定の領域における異常検出に使用される最先端手法について概説する。
論文 参考訳(メタデータ) (2020-10-27T09:56:16Z) - Data Mining with Big Data in Intrusion Detection Systems: A Systematic
Literature Review [68.15472610671748]
クラウドコンピューティングは、複雑で高性能でスケーラブルな計算のために、強力で必要不可欠な技術になっている。
データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めている。
ビッグデータ設定における侵入検知システム(IDS)の設計と展開が重要視されている。
論文 参考訳(メタデータ) (2020-05-23T20:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。