論文の概要: Auto-Tag: Tagging-Data-By-Example in Data Lakes
- arxiv url: http://arxiv.org/abs/2112.06049v1
- Date: Sat, 11 Dec 2021 18:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 09:12:12.088533
- Title: Auto-Tag: Tagging-Data-By-Example in Data Lakes
- Title(参考訳): Auto-Tag: データレイクにおけるタグ付けデータバイサンプル
- Authors: Yeye He, Jie Song, Yue Wang, Surajit Chaudhuri, Vishal Anil, Blake
Lassiter, Yaron Goland, Gaurav Malhotra
- Abstract要約: コーパス駆動型アプローチであるAuto-Tagを開発した。
Auto-Tagはカスタムデータ型に対応可能で、正確かつ効率的であることが示されている。
Auto-Tagの一部は、クラウドベースのデータガバナンスとカタログソリューションのテキストイットであるAzure Purviewでカスタム分類'機能として提供される。
- 参考スコア(独自算出の注目度): 17.01037868234288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As data lakes become increasingly popular in large enterprises today, there
is a growing need to tag or classify data assets (e.g., files and databases) in
data lakes with additional metadata (e.g., semantic column-types), as the
inferred metadata can enable a range of downstream applications like data
governance (e.g., GDPR compliance), and dataset search. Given the sheer size of
today's enterprise data lakes with petabytes of data and millions of data
assets, it is imperative that data assets can be ``auto-tagged'', using
lightweight inference algorithms and minimal user input. In this work, we
develop Auto-Tag, a corpus-driven approach that automates data-tagging of
\textit{custom} data types in enterprise data lakes. Using Auto-Tag, users only
need to provide \textit{one} example column to demonstrate the desired
data-type to tag. Leveraging an index structure built offline using a
lightweight scan of the data lake, which is analogous to pre-training in
machine learning, Auto-Tag can infer suitable data patterns to best
``describe'' the underlying ``domain'' of the given column at an interactive
speed, which can then be used to tag additional data of the same ``type'' in
data lakes. The Auto-Tag approach can adapt to custom data-types, and is shown
to be both accurate and efficient. Part of Auto-Tag ships as a
``custom-classification'' feature in a cloud-based data governance and catalog
solution \textit{Azure Purview}.
- Abstract(参考訳): データレイクが大企業で普及するにつれ、推定されたメタデータによってデータガバナンス(gdprコンプライアンスなど)やデータセット検索などのダウンストリームアプリケーションが可能になるため、データレイク内のデータアセット(ファイルやデータベースなど)に追加メタデータ(セマンティックコラムタイプなど)をタグ付けしたり分類したりする必要が増えている。
今日のエンタープライズデータレイクにはペタバイト単位のデータと数百万のデータアセットがあるため、軽量な推論アルゴリズムと最小限のユーザ入力を使用して、データアセットを‘自動タグ’にすることが可能である。
本研究では,企業データレイクにおける \textit{custom} データ型のデータタグ付けを自動化するコーパス駆動型アプローチであるAuto-Tagを開発する。
Auto-Tagを使用すると、ユーザはタグ付けしたいデータ型を示すために、 \textit{one} の例列を提供するだけでよい。
データレイクの軽量なスキャンを使用してオフラインで構築されたインデックス構造を活用することで、auto-tagは、データレイク内の同じ ``type'' の追加データをタグ付けするために、与えられた列の下位の ``domain'' をインタラクティブな速度でベスト ``describe''' にするために、適切なデータパターンを推論することができる。
Auto-Tagアプローチはカスタムデータ型に対応可能で、正確かつ効率的であることが示されている。
Auto-Tagの一部は、クラウドベースのデータガバナンスとカタログソリューションの‘custom-classification’機能として提供される。
関連論文リスト
- DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Deep Lake: a Lakehouse for Deep Learning [0.0]
Deep Lakeは、Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスである。
本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeについて述べる。
論文 参考訳(メタデータ) (2022-09-22T05:04:09Z) - AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning [69.47585818994959]
リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。
我々は,大規模データプラットフォームであるIBM PAIRSを用いて,密集都市部でそのようなラベルを動的に生成する。
論文 参考訳(メタデータ) (2022-01-31T20:02:22Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Using Psuedolabels for training Sentiment Classifiers makes the model
generalize better across datasets [0.0]
パブリックな感情分類APIでは、ドメイン間のデータアノテート能力に制限のある、さまざまなタイプのデータに対してうまく機能する分類器をどうやって設定すればよいのか?
我々は、このデータセット上の異なるドメインと擬似ラベルから大量の無注釈データが与えられた場合、異なるデータセットにまたがってよりよく一般化される感情分類器を訓練できることを示した。
論文 参考訳(メタデータ) (2021-10-05T17:47:15Z) - Automatic labelling of urban point clouds using data fusion [1.8275108630751844]
本稿では,都市部における街路点雲のセマンティックセマンティックセグメンテーションのためのラベル付きデータセットを半自動生成する手法について述べる。
我々は、標高データや大規模地形図などの公開データソースを用いたデータ融合技術を用いて、ポイントクラウドの一部を自動的にラベル付けする。
これにより、ディープセマンティックセグメンテーションモデルをトレーニングするのに十分なラベル付きデータセットを作成するのに必要な時間が大幅に制限される。
論文 参考訳(メタデータ) (2021-08-31T11:14:22Z) - DCoM: A Deep Column Mapper for Semantic Data Type Detection [0.0]
我々は,多入力NLPに基づくディープニューラルネットワークの集合であるDCoMを導入し,セマンティックデータ型を検出する。
78種類の意味データ型を持つVizNetコーパスから抽出した686,765個のデータ列上でDCoMを訓練する。
論文 参考訳(メタデータ) (2021-06-24T10:12:35Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。