論文の概要: Semantic Annotation for Tabular Data
- arxiv url: http://arxiv.org/abs/2012.08594v1
- Date: Tue, 15 Dec 2020 20:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:14:08.117415
- Title: Semantic Annotation for Tabular Data
- Title(参考訳): 語彙データに対する意味アノテーション
- Authors: Udayan Khurana and Sainyam Galhotra
- Abstract要約: c2$は概念マッパーのためのコラムであり、アンサンブルによる最大確率推定アプローチに基づいている。
9つのデータセット上でC2$オーバーのテクニックの有効性を実証する。
- 参考スコア(独自算出の注目度): 9.207355077507263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting semantic concept of columns in tabular data is of particular
interest to many applications ranging from data integration, cleaning, search
to feature engineering and model building in machine learning. Recently,
several works have proposed supervised learning-based or heuristic
pattern-based approaches to semantic type annotation. Both have shortcomings
that prevent them from generalizing over a large number of concepts or
examples. Many neural network based methods also present scalability issues.
Additionally, none of the known methods works well for numerical data. We
propose $C^2$, a column to concept mapper that is based on a maximum likelihood
estimation approach through ensembles. It is able to effectively utilize vast
amounts of, albeit somewhat noisy, openly available table corpora in addition
to two popular knowledge graphs to perform effective and efficient concept
prediction for structured data. We demonstrate the effectiveness of $C^2$ over
available techniques on 9 datasets, the most comprehensive comparison on this
topic so far.
- Abstract(参考訳): 表データにおける列の意味概念の検出は、データ統合、クリーニング、検索、特徴工学、機械学習におけるモデル構築など、多くのアプリケーションにとって特に興味深い。
近年,セマンティック型アノテーションに対する教師付き学習に基づく,あるいはヒューリスティックなパターンに基づくアプローチが提案されている。
どちらも、多くの概念や例を一般化するのを防ぐ欠点がある。
多くのニューラルネットワークベースの手法もスケーラビリティの問題を提示している。
さらに、既知の手法は数値データに対してうまく機能しない。
我々は,アンサンブルによる最大確率推定手法に基づく,概念マッパーのためのコラムである$c^2$を提案する。
2つの一般的なナレッジグラフに加えて、幾分騒がしいオープンなテーブルコーパスを効果的に活用し、構造化データに対して効果的かつ効率的な概念予測を行うことができる。
我々は9つのデータセット上で$c^2$が使用可能なテクニックの有効性を実証する。
関連論文リスト
- HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Infinite Recommendation Networks: A Data-Centric Approach [8.044430277912936]
Neural Tangent Kernelを活用して、無限大のニューラルネットワークをトレーニングし、無限大のボトルネック層を持つオートエンコーダであるinfty$-AEを考案します。
また、小型で高忠実なデータ要約を合成するためのDistill-CFを開発した。
我々は、最初のデータセットサイズの0.1%に満たない完全なデータセット上で、infty$-AEのパフォーマンスの96-105%を観察した。
論文 参考訳(メタデータ) (2022-06-03T00:34:13Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - SuperCone: Modeling Heterogeneous Experts with Concept Meta-learning for
Unified Predictive Segments System [8.917697023052257]
統合述語セグメントシステムであるSuperConeについて述べる。
これは、各ユーザの異質なデジタルフットプリントを要約するフラットな概念表現の上に構築される。
様々な述語セグメントタスクにおいて、最先端のレコメンデーションとランキングアルゴリズムを上回ります。
論文 参考訳(メタデータ) (2022-03-09T04:11:39Z) - DANets: Deep Abstract Networks for Tabular Data Classification and
Regression [9.295859461145783]
Abstract Layer (AbstLay)は、相関的な入力機能を明示的にグループ化し、セマンティクスの抽象化のための高レベルな機能を生成する。
表形式のデータ分類と回帰のためのDeep Abstract Networks (DANets) のファミリー。
論文 参考訳(メタデータ) (2021-12-06T12:15:28Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Active Covering [37.525977525895605]
我々は,学習者がラベルのないデータセットを与えられ,クエリの事例を逐次ラベル付けできる,アクティブカバーの問題を分析する。
目的は,最少数のラベルクエリにおいて,肯定的な例をすべてラベル付けすることである。
論文 参考訳(メタデータ) (2021-06-04T15:32:39Z) - Sparse-Interest Network for Sequential Recommendation [78.83064567614656]
本稿では,シーケンシャルレコメンデーションのためのtextbfSparse textbfInterest textbfNEtwork(SINE)を提案する。
我々のスパース関心モジュールは、大きなコンセプトプールから各ユーザに対してスパースの概念セットを適応的に推測することができる。
SINEは最先端の手法よりも大幅に改善できる。
論文 参考訳(メタデータ) (2021-02-18T11:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。