論文の概要: Record fusion: A learning approach
- arxiv url: http://arxiv.org/abs/2006.10208v1
- Date: Thu, 18 Jun 2020 00:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:24:09.215068
- Title: Record fusion: A learning approach
- Title(参考訳): Record fusion: 学習アプローチ
- Authors: Alireza Heidari, George Michalopoulos, Shrinu Kushagra, Ihab F. Ilyas,
Theodoros Rekatsinas
- Abstract要約: 我々はレコード融合を機械学習の問題とみなし、各属性の「正しい」値を各エンティティに対して予測することを目的としている。
提案手法では,データソース情報が利用可能な場合の平均精度は98%で,情報源情報のない場合の94%が実世界のデータセットに分散している。
- 参考スコア(独自算出の注目度): 13.031094357987268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Record fusion is the task of aggregating multiple records that correspond to
the same real-world entity in a database. We can view record fusion as a
machine learning problem where the goal is to predict the "correct" value for
each attribute for each entity. Given a database, we use a combination of
attribute-level, recordlevel, and database-level signals to construct a feature
vector for each cell (or (row, col)) of that database. We use this feature
vector alongwith the ground-truth information to learn a classifier for each of
the attributes of the database.
Our learning algorithm uses a novel stagewise additive model. At each stage,
we construct a new feature vector by combining a part of the original feature
vector with features computed by the predictions from the previous stage. We
then learn a softmax classifier over the new feature space. This greedy
stagewise approach can be viewed as a deep model where at each stage, we are
adding more complicated non-linear transformations of the original feature
vector. We show that our approach fuses records with an average precision of
~98% when source information of records is available, and ~94% without source
information across a diverse array of real-world datasets. We compare our
approach to a comprehensive collection of data fusion and entity consolidation
methods considered in the literature. We show that our approach can achieve an
average precision improvement of ~20%/~45% with/without source information
respectively.
- Abstract(参考訳): Record fusionは、データベース内の同じ現実世界のエンティティに対応する複数のレコードを集約するタスクである。
record fusionは、各エンティティの属性の"正しい"値を予測することを目的としている機械学習の問題と見なすことができる。
データベースが与えられた場合、属性レベル、レコードレベル、データベースレベルの信号を組み合わせて、そのデータベースの各セル(または(row, col))の特徴ベクトルを構築します。
この特徴ベクトルと接地情報を用いてデータベースの属性ごとに分類器を学習する。
学習アルゴリズムは,新しい段階的加法モデルを用いる。
各段階で、元の特徴ベクトルの一部と前段からの予測によって計算された特徴を組み合わせることで、新しい特徴ベクトルを構築する。
次に、新しい機能空間でsoftmax分類器を学習します。
この強欲な段階的アプローチは、各段階で元の特徴ベクトルのより複雑な非線形変換を追加する深層モデルと見なすことができる。
提案手法では,実世界の多種多様なデータセットにまたがるソース情報がない場合,平均98%の精度でレコードを融合し,約94%の精度でソース情報を融合する。
文献にみるデータ融合とエンティティ統合手法の包括的収集に対する我々のアプローチを比較した。
本手法は,ソース情報無しで平均20%/~45%の精度向上を達成できることを示す。
関連論文リスト
- Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - One model to use them all: Training a segmentation model with complementary datasets [38.73145509617609]
補足アノテーションを提供する部分注釈付きデータセットを1つのモデルに結合する手法を提案する。
このアプローチは6つのクラスを1つのモデルにうまく組み合わせ、全体のDice Scoreを4.4%増加させました。
胃と大腸の混同を24%減らすことができた。
論文 参考訳(メタデータ) (2024-02-29T16:46:49Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Parsing with Pretrained Language Models, Multiple Datasets, and Dataset
Embeddings [13.097523786733872]
変換器に基づく多言語依存にデータセットを埋め込む2つの手法を比較する。
ベースラインスコアが低い小さなデータセットやデータセットでは,パフォーマンスの向上が最も高いことを確認します。
すべてのデータセットの組み合わせによるトレーニングは、言語関連性に基づいてより小さなクラスタを設計するのと同様である。
論文 参考訳(メタデータ) (2021-12-07T10:47:07Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - LEAPME: Learning-based Property Matching with Embeddings [5.2078071454435815]
LEAPME(LEArning-based Property Matching with Embeddings)と呼ばれる機械学習による新しいプロパティマッチング手法を提案する。
このアプローチでは、プロパティ名とインスタンス値の両方のドメイン固有のセマンティクスをよりよく活用するために、ワード埋め込みを多用している。
実世界データを用いた複数のマルチソースデータセットに対する5つのベースラインの比較評価により,LEAPMEの有効性が示唆された。
論文 参考訳(メタデータ) (2020-10-05T12:42:39Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。