論文の概要: DCoM: A Deep Column Mapper for Semantic Data Type Detection
- arxiv url: http://arxiv.org/abs/2106.12871v1
- Date: Thu, 24 Jun 2021 10:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-26 01:04:26.602938
- Title: DCoM: A Deep Column Mapper for Semantic Data Type Detection
- Title(参考訳): DCoM:意味データ型検出のためのディープカラムマッパー
- Authors: Subhadip Maji, Swapna Sourav Rout and Sudeep Choudhary
- Abstract要約: 我々は,多入力NLPに基づくディープニューラルネットワークの集合であるDCoMを導入し,セマンティックデータ型を検出する。
78種類の意味データ型を持つVizNetコーパスから抽出した686,765個のデータ列上でDCoMを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detection of semantic data types is a very crucial task in data science for
automated data cleaning, schema matching, data discovery, semantic data type
normalization and sensitive data identification. Existing methods include
regular expression-based or dictionary lookup-based methods that are not robust
to dirty as well unseen data and are limited to a very less number of semantic
data types to predict. Existing Machine Learning methods extract large number
of engineered features from data and build logistic regression, random forest
or feedforward neural network for this purpose. In this paper, we introduce
DCoM, a collection of multi-input NLP-based deep neural networks to detect
semantic data types where instead of extracting large number of features from
the data, we feed the raw values of columns (or instances) to the model as
texts. We train DCoM on 686,765 data columns extracted from VizNet corpus with
78 different semantic data types. DCoM outperforms other contemporary results
with a quite significant margin on the same dataset.
- Abstract(参考訳): セマンティクスデータ型の検出は、データの自動クリーニング、スキーママッチング、データディスカバリ、セマンティクスデータ型正規化、機密データ識別など、データサイエンスにおいて非常に重要なタスクである。
既存のメソッドには正規表現ベースや辞書検索ベースのメソッドが含まれており、dirtyや未認識のデータには堅牢ではなく、予測すべきセマンティクスデータ型に制限されている。
既存の機械学習手法は、データから多数のエンジニアリングされた特徴を抽出し、この目的のためにロジスティック回帰、ランダムフォレスト、フィードフォワードニューラルネットワークを構築する。
本稿では,データから大量の特徴を抽出する代わりに,列(あるいはインスタンス)の生の値をテキストとしてモデルに送出する意味的データ型を検出する,多入力のnlpベースのディープニューラルネットワークのコレクションであるdcomを提案する。
78種類の意味データ型を持つVizNetコーパスから抽出した686,765データ列上でDCoMを訓練する。
DCoMは、同じデータセット上で非常に大きなマージンで、他の現代の結果よりも優れています。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Explaining Classifiers Trained on Raw Hierarchical Multiple-Instance
Data [0.0]
多くのデータソースは、構造化されたデータ交換フォーマット(例えば、XMLフォーマットの複数のセキュリティログ)の自然な形式を持っています。
階層型インスタンス学習(HMIL)のような既存の手法では、そのようなデータを生の形式で学習することができる。
これらのモデルをサブセット選択問題として扱うことにより、計算効率のよいアルゴリズムを用いて、解釈可能な説明が好ましい性質でどのように生成できるかを実証する。
我々は,グラフニューラルネットワークから導入した説明手法と比較して,桁違いの高速化と高品質な説明を行う。
論文 参考訳(メタデータ) (2022-08-04T14:48:37Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Missing Value Imputation on Multidimensional Time Series [16.709162372224355]
本稿では,多次元時系列データセットにおける深層学習手法DeepMVIを提案する。
DeepMVIは、時系列に沿った細粒度と粗粒度パターンと、カテゴリ次元にわたる関連するシリーズのトレンドを組み合わせる。
実験の結果、DeepMVIの精度は著しく向上し、半数以上のケースで50%以上のエラーが削減された。
論文 参考訳(メタデータ) (2021-03-02T09:55:05Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。