Fugu-MT 論文翻訳(概要): DCoM: A Deep Column Mapper for Semantic Data Type Detection

論文の概要: DCoM: A Deep Column Mapper for Semantic Data Type Detection

arxiv url: http://arxiv.org/abs/2106.12871v1
Date: Thu, 24 Jun 2021 10:12:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-26 01:04:26.602938
Title: DCoM: A Deep Column Mapper for Semantic Data Type Detection
Title（参考訳）: DCoM:意味データ型検出のためのディープカラムマッパー
Authors: Subhadip Maji, Swapna Sourav Rout and Sudeep Choudhary
Abstract要約: 我々は,多入力NLPに基づくディープニューラルネットワークの集合であるDCoMを導入し,セマンティックデータ型を検出する。 78種類の意味データ型を持つVizNetコーパスから抽出した686,765個のデータ列上でDCoMを訓練する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detection of semantic data types is a very crucial task in data science for automated data cleaning, schema matching, data discovery, semantic data type normalization and sensitive data identification. Existing methods include regular expression-based or dictionary lookup-based methods that are not robust to dirty as well unseen data and are limited to a very less number of semantic data types to predict. Existing Machine Learning methods extract large number of engineered features from data and build logistic regression, random forest or feedforward neural network for this purpose. In this paper, we introduce DCoM, a collection of multi-input NLP-based deep neural networks to detect semantic data types where instead of extracting large number of features from the data, we feed the raw values of columns (or instances) to the model as texts. We train DCoM on 686,765 data columns extracted from VizNet corpus with 78 different semantic data types. DCoM outperforms other contemporary results with a quite significant margin on the same dataset.
Abstract（参考訳）: セマンティクスデータ型の検出は、データの自動クリーニング、スキーママッチング、データディスカバリ、セマンティクスデータ型正規化、機密データ識別など、データサイエンスにおいて非常に重要なタスクである。既存のメソッドには正規表現ベースや辞書検索ベースのメソッドが含まれており、dirtyや未認識のデータには堅牢ではなく、予測すべきセマンティクスデータ型に制限されている。既存の機械学習手法は、データから多数のエンジニアリングされた特徴を抽出し、この目的のためにロジスティック回帰、ランダムフォレスト、フィードフォワードニューラルネットワークを構築する。本稿では,データから大量の特徴を抽出する代わりに,列(あるいはインスタンス)の生の値をテキストとしてモデルに送出する意味的データ型を検出する,多入力のnlpベースのディープニューラルネットワークのコレクションであるdcomを提案する。 78種類の意味データ型を持つVizNetコーパスから抽出した686,765データ列上でDCoMを訓練する。 DCoMは、同じデータセット上で非常に大きなマージンで、他の現代の結果よりも優れています。

関連論文リスト

DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。手書き文字認識のためのMNISTデータセットの実験を行った。根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文参考訳（メタデータ） (2024-10-16T10:28:22Z)
DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか? 自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文参考訳（メタデータ） (2023-12-05T18:34:12Z)
DiffusionEngine: Diffusion Model is Scalable Data Engine for Object Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。 DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文参考訳（メタデータ） (2023-09-07T17:55:01Z)
Exploring Data Redundancy in Real-world Image Classification through Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文参考訳（メタデータ） (2023-06-25T03:31:05Z)
Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。 DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文参考訳（メタデータ） (2023-02-06T23:57:56Z)
Explaining Classifiers Trained on Raw Hierarchical Multiple-Instance Data [0.0]
多くのデータソースは、構造化されたデータ交換フォーマット(例えば、XMLフォーマットの複数のセキュリティログ)の自然な形式を持っています。階層型インスタンス学習(HMIL)のような既存の手法では、そのようなデータを生の形式で学習することができる。これらのモデルをサブセット選択問題として扱うことにより、計算効率のよいアルゴリズムを用いて、解釈可能な説明が好ましい性質でどのように生成できるかを実証する。我々は,グラフニューラルネットワークから導入した説明手法と比較して,桁違いの高速化と高品質な説明を行う。
論文参考訳（メタデータ） (2022-08-04T14:48:37Z)
Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文参考訳（メタデータ） (2022-06-07T17:59:44Z)
Missing Value Imputation on Multidimensional Time Series [16.709162372224355]
本稿では,多次元時系列データセットにおける深層学習手法DeepMVIを提案する。 DeepMVIは、時系列に沿った細粒度と粗粒度パターンと、カテゴリ次元にわたる関連するシリーズのトレンドを組み合わせる。実験の結果、DeepMVIの精度は著しく向上し、半数以上のケースで50%以上のエラーが削減された。
論文参考訳（メタデータ） (2021-03-02T09:55:05Z)
Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。私たちのアプローチは手動の分類学の調整を必要としません。
論文参考訳（メタデータ） (2021-02-25T18:55:58Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)
Neural Data Server: A Large-Scale Search Engine for Transfer Learning Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。 NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文参考訳（メタデータ） (2020-01-09T01:21:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。