論文の概要: Fuzzy Integration of Data Lake Tables
- arxiv url: http://arxiv.org/abs/2501.09211v1
- Date: Thu, 16 Jan 2025 00:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:08:39.151938
- Title: Fuzzy Integration of Data Lake Tables
- Title(参考訳): データレイクテーブルのファジィ統合
- Authors: Aamod Khatiwada, Roee Shraga, Renée J. Miller,
- Abstract要約: 本稿では,Flull Disjunction内での近似やファジィマッチングの接合を可能にする新しいデータ駆動方式を提案する。
ファジィフル・ディジャンクションは、最先端のフル・ディジャンクション実装にかなりの時間的オーバーヘッドを与えないことを示す。
- 参考スコア(独自算出の注目度): 9.758870410954271
- License:
- Abstract: Data integration is an important step in any data science pipeline where the objective is to unify the information available in different datasets for comprehensive analysis. Full Disjunction, which is an associative extension of the outer join operator, has been shown to be an effective operator for integrating datasets. It fully preserves and combines the available information. Existing Full Disjunction algorithms only consider the equi-join scenario where only tuples having the same value on joining columns are integrated. This, however, does not realistically represent an open data scenario, where datasets come from diverse sources with inconsistent values (e.g., synonyms, abbreviations, etc.) and with limited metadata. So, joining just on equal values severely limits the ability of Full Disjunction to fully combine datasets. Thus, in this work, we propose an extension of Full Disjunction to also account for "fuzzy" matches among tuples. We present a novel data-driven approach to enable the joining of approximate or fuzzy matches within Full Disjunction. Experimentally, we show that fuzzy Full Disjunction does not add significant time overhead over a state-of-the-art Full Disjunction implementation and also that it enhances the integration effectiveness.
- Abstract(参考訳): データ統合は、包括的な分析のために異なるデータセットで利用可能な情報を統一することを目的としている、あらゆるデータサイエンスパイプラインにおいて重要なステップである。
外部結合演算子の連想拡張であるFull Disjunctionは、データセットの統合に有効な演算子であることが示されている。
利用可能な情報を完全に保存し、組み合わせる。
既存のフルディジャンクションアルゴリズムは、結合列に同じ値を持つタプルのみが統合されるような等結合シナリオのみを考慮する。
しかし、これは現実的にはオープンデータシナリオを表現していない。データセットは、一貫性のない値(例えば、同義語、略語など)と限られたメタデータを持つ多様なソースから来ている。
したがって、等しい値にのみ結合することは、データセットを完全に結合するFull Disjunctionの能力を著しく制限する。
そこで本研究では,タプル間の「ファジィ」マッチングを考慮に入れたFull Disjunctionの拡張を提案する。
本稿では,Flull Disjunction内での近似やファジィマッチングの接合を可能にする新しいデータ駆動方式を提案する。
実験により, ファジィフルディジャンクションは, 最先端のフルディジャンクション実装にかなりの時間的オーバーヘッドを与えず, 統合性の向上も図っている。
関連論文リスト
- Robust Table Integration in Data Lakes [11.719923132819158]
本稿では,データレイクからテーブルを統合することの課題について検討する。
我々は、ペアワイズ積分可能性判定、可積分集合発見、マルチタプルコンフリクト解決という3つの中核課題に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-30T02:45:01Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - Finetuning BERT on Partially Annotated NER Corpora [0.0]
本研究は、自己スーパービジョンとラベル前処理を用いて、部分ラベル付きデータセット上でBERTを微調整するアプローチを提案する。
提案手法は従来のLSTMベースのラベル前処理ベースラインよりも優れており,ラベルの粗末なデータセットの性能が著しく向上している。
論文 参考訳(メタデータ) (2022-11-25T19:54:30Z) - MAVEN-ERE: A Unified Large-scale Dataset for Event Coreference,
Temporal, Causal, and Subevent Relation Extraction [78.61546292830081]
アノテーションを改良した大規模EREデータセットMAVEN-EREを構築した。
103,193個のイベント・コア・チェイン、1,216,217個の時間関係、57,992個の因果関係、15,841個の部分関係を含む。
実験の結果,MAVEN-ERE上でのEREは極めて困難であり,共同学習との相互関係を考慮すれば性能が向上することが示された。
論文 参考訳(メタデータ) (2022-11-14T13:34:49Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - Fusion Subspace Clustering for Incomplete Data [0.0]
本稿では,大規模かつ不完全なデータに近似した低次元構造を学習する新しい手法であるEm fusion Subspace Clusteringを紹介する。
提案手法では,ノイズを直接考慮し,情報理論の限界に近づいた。
実データと合成データに関する広範な実験を通して、我々のアプローチは、完全なデータで最先端と互換性があり、データが欠落している場合、劇的に改善されていることを示す。
論文 参考訳(メタデータ) (2022-05-22T17:23:41Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Self-supervised Robust Object Detectors from Partially Labelled Datasets [3.1669406516464007]
データセットをマージすることで、複数のオブジェクトをトレーニングする代わりに、1つの統合オブジェクト検出器をトレーニングすることができます。
本稿では,統合されたデータセットのラベルの欠落を克服するためのトレーニングフレームワークを提案する。
VOC2012 と VOC2007 を用いて,Yolo の誤り率 $approx!48%$ で,シミュレーションした統合データセット上で Yolo をトレーニングするためのフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-05-23T15:18:20Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。