論文の概要: Desbordante: from benchmarking suite to high-performance
science-intensive data profiler (preprint)
- arxiv url: http://arxiv.org/abs/2301.05965v1
- Date: Sat, 14 Jan 2023 19:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 18:08:36.249889
- Title: Desbordante: from benchmarking suite to high-performance
science-intensive data profiler (preprint)
- Title(参考訳): Desbordante: ベンチマークスイートから高性能な科学集約データプロファイラ(プレプリント)
- Authors: George Chernishev, Michael Polyntsov, Anton Chizhov, Kirill Stupakov,
Ilya Shchuckin, Alexander Smirnov, Maxim Strutovsky, Alexey Shlyonskikh,
Mikhail Firsov, Stepan Manannikov, Nikita Bobrov, Daniil Goncharov, Ilia
Barutkin, Vladislav Shalnev, Kirill Muraviev, Anna Rakhmukova, Dmitriy
Shcheka, Anton Chernikov, Dmitrii Mandelshtam, Mikhail Vyrodov, Arthur
Saliou, Eduard Gaisin, Kirill Smirnov
- Abstract要約: Desbordanteは、オープンソースのコードを持つ高性能な科学集約型データプロファイラである。
類似のシステムとは異なり、マルチユーザ環境での産業的応用に重点を置いて構築されている。
効率的で、クラッシュに対して回復力があり、スケーラブルです。
- 参考スコア(独自算出の注目度): 36.537985747809245
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pioneering data profiling systems such as Metanome and OpenClean brought
public attention to science-intensive data profiling. This type of profiling
aims to extract complex patterns (primitives) such as functional dependencies,
data constraints, association rules, and others. However, these tools are
research prototypes rather than production-ready systems.
The following work presents Desbordante - a high-performance
science-intensive data profiler with open source code. Unlike similar systems,
it is built with emphasis on industrial application in a multi-user
environment. It is efficient, resilient to crashes, and scalable. Its
efficiency is ensured by implementing discovery algorithms in C++, resilience
is achieved by extensive use of containerization, and scalability is based on
replication of containers.
Desbordante aims to open industrial-grade primitive discovery to a broader
public, focusing on domain experts who are not IT professionals. Aside from the
discovery of various primitives, Desbordante offers primitive validation, which
not only reports whether a given instance of primitive holds or not, but also
points out what prevents it from holding via the use of special screens. Next,
Desbordante supports pipelines - ready-to-use functionality implemented using
the discovered primitives, for example, typo detection. We provide built-in
pipelines, and the users can construct their own via provided Python bindings.
Unlike other profilers, Desbordante works not only with tabular data, but with
graph and transactional data as well.
In this paper, we present Desbordante, the vision behind it and its
use-cases. To provide a more in-depth perspective, we discuss its current
state, architecture, and design decisions it is built on. Additionally, we
outline our future plans.
- Abstract(参考訳): MetanomeやOpenCleanといったデータプロファイリングシステムのパイオニア化は、科学集約的なデータプロファイリングに注目を集めた。
このタイプのプロファイリングは、機能依存、データ制約、関連ルールなどの複雑なパターン(プリミティブ)を抽出することを目的としている。
しかし、これらのツールはプロダクション対応システムではなく、研究プロトタイプである。
Desbordante - オープンソースコードを備えた,高性能な科学集約型データプロファイラだ。
同様のシステムとは異なり、マルチユーザー環境での産業アプリケーションを重視して構築されている。
効率的で、クラッシュに耐性があり、スケーラブルです。
その効率性はC++で発見アルゴリズムを実装することで保証され、レジリエンスはコンテナ化の広範な使用によって達成され、スケーラビリティはコンテナのレプリケーションに基づいています。
Desbordanteは、IT専門家ではないドメインの専門家に焦点をあてて、産業レベルの原始的発見を広く一般に開放することを目指している。
プリミティブの発見以外にも、Desbordante氏はプリミティブバリデーションを提供している。プリミティブのインスタンスが保持するかどうかを報告するだけでなく、特別なスクリーンの使用によって保持できないものについても指摘している。
次に、Desbordanteはパイプライン - 検出されたプリミティブを使って実装されたプリミティブ、例えば型検出機能 - をサポートする。
組込みパイプラインを提供しており、ユーザーは提供されたPythonバインディングを使って独自のパイプラインを構築することができる。
他のプロファイラとは異なり、desbordanteは表データだけでなく、グラフデータやトランザクションデータでも動作する。
本稿では,desbordanteとその背後にあるビジョンとユースケースについて述べる。
より詳細な視点を提供するため、我々は、その基盤となっている現在の状態、アーキテクチャ、および設計決定について論じる。
さらに,今後の計画についても概説する。
関連論文リスト
- When in Doubt, Cascade: Towards Building Efficient and Capable Guardrails [19.80434777786657]
ターゲットデータとラベルデータを生成する合成パイプラインを開発した。
提案手法は,計算コストのごく一部で競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2024-07-08T18:39:06Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Solving Data Quality Problems with Desbordante: a Demo [35.75243108496634]
Desbordanteはオープンソースのデータプロファイラで、このギャップを埋めることを目指している。
産業アプリケーションに重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対して回復力があり、説明を提供する。
このデモでは、エンドユーザがさまざまなデータ品質問題を解決できるいくつかのシナリオを紹介します。
論文 参考訳(メタデータ) (2023-07-27T15:26:26Z) - Fingerprinting and Building Large Reproducible Datasets [3.2873782624127843]
提案手法は,大規模なデータセットの作成を容易にし,その証明を確実にするツール支援手法である。
抽出プロセスに提供されたデータセットを特徴付けるユニークな指紋を定義する方法を提案する。
論文 参考訳(メタデータ) (2023-06-20T08:59:33Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - A Unified Active Learning Framework for Annotating Graph Data with
Application to Software Source Code Performance Prediction [4.572330678291241]
ソフトウェアの性能予測を専門とする一貫したアクティブラーニングフレームワークを開発した。
能動的・受動的学習に異なるレベルの情報を用いることが与える影響について検討する。
我々のアプローチは、異なるソフトウェアパフォーマンス予測のためのAIモデルへの投資を改善することを目的としています。
論文 参考訳(メタデータ) (2023-04-06T14:00:48Z) - Position Paper on Dataset Engineering to Accelerate Science [1.952708415083428]
この作業では、トークン ittextdataset を使用して、明確に定義されたタスクを実行するために構築されたデータの構造化セットを指定する。
具体的には、科学において、各領域にはデータセットを整理、収集、処理するためのユニークな形態がある。
科学と工学の発見プロセスは、データセット上のそのような組織の必要性の極端な例である、と我々は主張する。
論文 参考訳(メタデータ) (2023-03-09T19:07:40Z) - Tevatron: An Efficient and Flexible Toolkit for Dense Retrieval [60.457378374671656]
Tevatronは、効率、柔軟性、コードの単純さに最適化された高密度な検索ツールキットである。
Tevatronのフレキシブルな設計は、データセット、モデルアーキテクチャ、アクセラレータプラットフォームをまたいで簡単に一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-11T05:47:45Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Fully Convolutional Networks for Panoptic Segmentation [91.84686839549488]
そこで我々は,Panoptic FCNという概念的,シンプルで,強力で,効率的なパノプティックセグメンテーションフレームワークを提案する。
我々のアプローチは、統一された完全な畳み込みパイプラインにおいて、前景や背景を表現し、予測することを目的としています。
Panoptic FCNは、提案されたカーネルジェネレータで、各オブジェクトインスタンスまたは物カテゴリを特定のカーネル重みにエンコードする。
論文 参考訳(メタデータ) (2020-12-01T18:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。