論文の概要: DCoM: A Deep Column Mapper for Semantic Data Type Detection
- arxiv url: http://arxiv.org/abs/2106.12871v1
- Date: Thu, 24 Jun 2021 10:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-26 01:04:26.602938
- Title: DCoM: A Deep Column Mapper for Semantic Data Type Detection
- Title(参考訳): DCoM:意味データ型検出のためのディープカラムマッパー
- Authors: Subhadip Maji, Swapna Sourav Rout and Sudeep Choudhary
- Abstract要約: 我々は,多入力NLPに基づくディープニューラルネットワークの集合であるDCoMを導入し,セマンティックデータ型を検出する。
78種類の意味データ型を持つVizNetコーパスから抽出した686,765個のデータ列上でDCoMを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detection of semantic data types is a very crucial task in data science for
automated data cleaning, schema matching, data discovery, semantic data type
normalization and sensitive data identification. Existing methods include
regular expression-based or dictionary lookup-based methods that are not robust
to dirty as well unseen data and are limited to a very less number of semantic
data types to predict. Existing Machine Learning methods extract large number
of engineered features from data and build logistic regression, random forest
or feedforward neural network for this purpose. In this paper, we introduce
DCoM, a collection of multi-input NLP-based deep neural networks to detect
semantic data types where instead of extracting large number of features from
the data, we feed the raw values of columns (or instances) to the model as
texts. We train DCoM on 686,765 data columns extracted from VizNet corpus with
78 different semantic data types. DCoM outperforms other contemporary results
with a quite significant margin on the same dataset.
- Abstract(参考訳): セマンティクスデータ型の検出は、データの自動クリーニング、スキーママッチング、データディスカバリ、セマンティクスデータ型正規化、機密データ識別など、データサイエンスにおいて非常に重要なタスクである。
既存のメソッドには正規表現ベースや辞書検索ベースのメソッドが含まれており、dirtyや未認識のデータには堅牢ではなく、予測すべきセマンティクスデータ型に制限されている。
既存の機械学習手法は、データから多数のエンジニアリングされた特徴を抽出し、この目的のためにロジスティック回帰、ランダムフォレスト、フィードフォワードニューラルネットワークを構築する。
本稿では,データから大量の特徴を抽出する代わりに,列(あるいはインスタンス)の生の値をテキストとしてモデルに送出する意味的データ型を検出する,多入力のnlpベースのディープニューラルネットワークのコレクションであるdcomを提案する。
78種類の意味データ型を持つVizNetコーパスから抽出した686,765データ列上でDCoMを訓練する。
DCoMは、同じデータセット上で非常に大きなマージンで、他の現代の結果よりも優れています。
関連論文リスト
- DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Explaining Classifiers Trained on Raw Hierarchical Multiple-Instance
Data [0.0]
多くのデータソースは、構造化されたデータ交換フォーマット(例えば、XMLフォーマットの複数のセキュリティログ)の自然な形式を持っています。
階層型インスタンス学習(HMIL)のような既存の手法では、そのようなデータを生の形式で学習することができる。
これらのモデルをサブセット選択問題として扱うことにより、計算効率のよいアルゴリズムを用いて、解釈可能な説明が好ましい性質でどのように生成できるかを実証する。
我々は,グラフニューラルネットワークから導入した説明手法と比較して,桁違いの高速化と高品質な説明を行う。
論文 参考訳(メタデータ) (2022-08-04T14:48:37Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Missing Value Imputation on Multidimensional Time Series [16.709162372224355]
本稿では,多次元時系列データセットにおける深層学習手法DeepMVIを提案する。
DeepMVIは、時系列に沿った細粒度と粗粒度パターンと、カテゴリ次元にわたる関連するシリーズのトレンドを組み合わせる。
実験の結果、DeepMVIの精度は著しく向上し、半数以上のケースで50%以上のエラーが削減された。
論文 参考訳(メタデータ) (2021-03-02T09:55:05Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。