論文の概要: Solving Data Quality Problems with Desbordante: a Demo
- arxiv url: http://arxiv.org/abs/2307.14935v2
- Date: Fri, 28 Jul 2023 11:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 14:49:56.189863
- Title: Solving Data Quality Problems with Desbordante: a Demo
- Title(参考訳): desbordanteによるデータ品質問題を解決するデモ
- Authors: George Chernishev, Michael Polyntsov, Anton Chizhov, Kirill Stupakov,
Ilya Shchuckin, Alexander Smirnov, Maxim Strutovsky, Alexey Shlyonskikh,
Mikhail Firsov, Stepan Manannikov, Nikita Bobrov, Daniil Goncharov, Ilia
Barutkin, Vladislav Shalnev, Kirill Muraviev, Anna Rakhmukova, Dmitriy
Shcheka, Anton Chernikov, Mikhail Vyrodov, Yaroslav Kurbatov, Maxim Fofanov,
Sergei Belokonnyi, Pavel Anosov, Arthur Saliou, Eduard Gaisin, Kirill Smirnov
- Abstract要約: Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。
産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。
このデモでは、エンドユーザがさまざまなデータ品質問題を解決できるいくつかのシナリオを紹介します。
- 参考スコア(独自算出の注目度): 35.75243108496634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data profiling is an essential process in modern data-driven industries. One
of its critical components is the discovery and validation of complex
statistics, including functional dependencies, data constraints, association
rules, and others.
However, most existing data profiling systems that focus on complex
statistics do not provide proper integration with the tools used by
contemporary data scientists. This creates a significant barrier to the
adoption of these tools in the industry. Moreover, existing systems were not
created with industrial-grade workloads in mind. Finally, they do not aim to
provide descriptive explanations, i.e. why a given pattern is not found. It is
a significant issue as it is essential to understand the underlying reasons for
a specific pattern's absence to make informed decisions based on the data.
Because of that, these patterns are effectively rest in thin air: their
application scope is rather limited, they are rarely used by the broader
public. At the same time, as we are going to demonstrate in this presentation,
complex statistics can be efficiently used to solve many classic data quality
problems.
Desbordante is an open-source data profiler that aims to close this gap. It
is built with emphasis on industrial application: it is efficient, scalable,
resilient to crashes, and provides explanations. Furthermore, it provides
seamless Python integration by offloading various costly operations to the C++
core, not only mining.
In this demonstration, we show several scenarios that allow end users to
solve different data quality problems. Namely, we showcase typo detection, data
deduplication, and data anomaly detection scenarios.
- Abstract(参考訳): データプロファイリングは、現代のデータ駆動産業において不可欠なプロセスである。
その重要なコンポーネントの1つは、関数依存、データ制約、アソシエーションルールなどを含む複雑な統計の発見と検証である。
しかし、複雑な統計に焦点を絞った既存のデータプロファイリングシステムは、現代のデータサイエンティストが使用するツールと適切に統合されていない。
これにより、業界におけるこれらのツールの採用に大きな障壁が生まれます。
さらに、既存のシステムは産業レベルのワークロードを念頭に置いて作られていない。
最後に、なぜあるパターンが見つからないのかという記述的な説明を提供することを意図していない。
特定のパターンがデータに基づいて情報的決定を下さない理由を理解することが不可欠であるため、重要な問題である。
そのため、これらのパターンは事実上薄い空気で保たれており、適用範囲は比較的限られており、広く広く使われることは稀である。
同時に、このプレゼンテーションで示すように、多くの古典的なデータ品質問題を解決するために、複雑な統計を効率的に使うことができる。
Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。
産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。
さらに、マイニングだけでなく、様々なコストのかかる操作をc++コアにオフロードすることで、シームレスなpython統合を提供する。
このデモンストレーションでは、エンドユーザーが異なるデータ品質の問題を解決するいくつかのシナリオを示す。
具体的には,タイポ検出,データ重複,データ異常検出シナリオを紹介する。
関連論文リスト
- Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - $\texttt{causalAssembly}$: Generating Realistic Production Data for
Benchmarking Causal Discovery [1.3048920509133808]
我々は、因果探索手法のベンチマークをサポートする半合成製造データを生成するシステムを構築した。
我々は、柔軟に推定し、条件分布を表すために分布ランダムな森林を用いる。
このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。
論文 参考訳(メタデータ) (2023-06-19T10:05:54Z) - Boosting Synthetic Data Generation with Effective Nonlinear Causal
Discovery [11.81479419498206]
ソフトウェアテスト、データプライバシ、不均衡学習、人工知能の説明では、もっともらしいデータサンプルを生成することが不可欠である。
データ生成に広く使用されるアプローチの一般的な前提は、機能の独立性である。
本稿では,変数間の非線形因果関係を発見し,生成時に利用する合成データセット生成手法を提案する。
論文 参考訳(メタデータ) (2023-01-18T10:54:06Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Understanding and Preparing Data of Industrial Processes for Machine
Learning Applications [0.0]
本稿では, 非線形生産ラインの異なる生産ユニットにおけるセンサの非有効性に起因する, 欠落値の問題に対処する。
データのごく一部が欠落している場合、これらの欠落した値はしばしば暗示される。
本稿では,大量の観測データを除去することなく,利用可能なすべてのデータを活用できる手法を提案する。
論文 参考訳(メタデータ) (2021-09-08T07:39:11Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。
強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。
本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T20:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。