論文の概要: Semantic Annotation for Tabular Data
- arxiv url: http://arxiv.org/abs/2012.08594v1
- Date: Tue, 15 Dec 2020 20:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:14:08.117415
- Title: Semantic Annotation for Tabular Data
- Title(参考訳): 語彙データに対する意味アノテーション
- Authors: Udayan Khurana and Sainyam Galhotra
- Abstract要約: c2$は概念マッパーのためのコラムであり、アンサンブルによる最大確率推定アプローチに基づいている。
9つのデータセット上でC2$オーバーのテクニックの有効性を実証する。
- 参考スコア(独自算出の注目度): 9.207355077507263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting semantic concept of columns in tabular data is of particular
interest to many applications ranging from data integration, cleaning, search
to feature engineering and model building in machine learning. Recently,
several works have proposed supervised learning-based or heuristic
pattern-based approaches to semantic type annotation. Both have shortcomings
that prevent them from generalizing over a large number of concepts or
examples. Many neural network based methods also present scalability issues.
Additionally, none of the known methods works well for numerical data. We
propose $C^2$, a column to concept mapper that is based on a maximum likelihood
estimation approach through ensembles. It is able to effectively utilize vast
amounts of, albeit somewhat noisy, openly available table corpora in addition
to two popular knowledge graphs to perform effective and efficient concept
prediction for structured data. We demonstrate the effectiveness of $C^2$ over
available techniques on 9 datasets, the most comprehensive comparison on this
topic so far.
- Abstract(参考訳): 表データにおける列の意味概念の検出は、データ統合、クリーニング、検索、特徴工学、機械学習におけるモデル構築など、多くのアプリケーションにとって特に興味深い。
近年,セマンティック型アノテーションに対する教師付き学習に基づく,あるいはヒューリスティックなパターンに基づくアプローチが提案されている。
どちらも、多くの概念や例を一般化するのを防ぐ欠点がある。
多くのニューラルネットワークベースの手法もスケーラビリティの問題を提示している。
さらに、既知の手法は数値データに対してうまく機能しない。
我々は,アンサンブルによる最大確率推定手法に基づく,概念マッパーのためのコラムである$c^2$を提案する。
2つの一般的なナレッジグラフに加えて、幾分騒がしいオープンなテーブルコーパスを効果的に活用し、構造化データに対して効果的かつ効率的な概念予測を行うことができる。
我々は9つのデータセット上で$c^2$が使用可能なテクニックの有効性を実証する。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Zero-shot Active Learning Using Self Supervised Learning [11.28415437676582]
我々は,反復的なプロセスを必要としないモデル非依存の新たなアクティブラーニング手法を提案する。
アクティブラーニングの課題に自己指導型学習機能を活用することを目的としている。
論文 参考訳(メタデータ) (2024-01-03T11:49:07Z) - Unsupervised Estimation of Ensemble Accuracy [0.0]
いくつかの分類器の結合力を推定する手法を提案する。
ラベルに依存しない「多様性」対策に重点を置く既存のアプローチとは異なる。
本手法は,一般的な大規模顔認証データセット上で実証する。
論文 参考訳(メタデータ) (2023-11-18T02:31:36Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - TabLLM: Few-shot Classification of Tabular Data with Large Language
Models [66.03023402174138]
大規模言語モデルのゼロショットおよび少数ショット分類への応用について検討する。
テンプレートやテーブル・ツー・テキストモデル,大規模言語モデルなど,いくつかのシリアライズ手法を評価する。
このアプローチは、勾配木のような強力な伝統的なベースラインとも競合する。
論文 参考訳(メタデータ) (2022-10-19T17:08:13Z) - From Weakly Supervised Learning to Active Learning [1.52292571922932]
この論文は、教師付き学習よりも汎用的なフレームワークを導き出せるか?
私たちは、ユニークなターゲットではなく、ターゲット候補のセットを与えるものとして、弱い監督をモデル化します。
我々は、ほとんどの観測値と一致する楽観的な'関数を求めるべきだと論じる。これにより、部分ラベルを曖昧にするための原則を導出できる。
論文 参考訳(メタデータ) (2022-09-23T14:55:43Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Active Covering [37.525977525895605]
我々は,学習者がラベルのないデータセットを与えられ,クエリの事例を逐次ラベル付けできる,アクティブカバーの問題を分析する。
目的は,最少数のラベルクエリにおいて,肯定的な例をすべてラベル付けすることである。
論文 参考訳(メタデータ) (2021-06-04T15:32:39Z) - Sparse-Interest Network for Sequential Recommendation [78.83064567614656]
本稿では,シーケンシャルレコメンデーションのためのtextbfSparse textbfInterest textbfNEtwork(SINE)を提案する。
我々のスパース関心モジュールは、大きなコンセプトプールから各ユーザに対してスパースの概念セットを適応的に推測することができる。
SINEは最先端の手法よりも大幅に改善できる。
論文 参考訳(メタデータ) (2021-02-18T11:03:48Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。