論文の概要: Table Integration in Data Lakes Unleashed: Pairwise Integrability Judgment, Integrable Set Discovery, and Multi-Tuple Conflict Resolution
- arxiv url: http://arxiv.org/abs/2412.00324v2
- Date: Sun, 13 Apr 2025 13:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:45:48.959931
- Title: Table Integration in Data Lakes Unleashed: Pairwise Integrability Judgment, Integrable Set Discovery, and Multi-Tuple Conflict Resolution
- Title(参考訳): データレイクにおけるテーブル統合: ペアワイズ・インテグレータビリティ・アジャッジメント、インテグレータ・セットディスカバリ、マルチタプル・コンフリクト・リゾリューション
- Authors: Daomin Ji, Hui Luo, Zhifeng Bao, Shane Culpepper,
- Abstract要約: 対角的可積分性判定の課題に対処するために,二進的教師付き対角学習アルゴリズムを訓練する。
マルチタプルコンフリクト解決に対処する革新的なインコンテキスト学習手法を提案する。
- 参考スコア(独自算出の注目度): 11.719923132819158
- License:
- Abstract: Table integration aims to create a comprehensive table by consolidating tuples containing relevant information. In this work, we investigate the challenge of integrating multiple tables from a data lake, focusing on three core tasks: 1) pairwise integrability judgment, which determines whether a tuple pair is integrable, accounting for any occurrences of semantic equivalence or typographical errors; 2) integrable set discovery, which identifies all integrable sets in a table based on pairwise integrability judgments established in the first task; 3) multi-tuple conflict resolution, which resolves conflicts between multiple tuples during integration. To this end, we train a binary classifier to address the task of pairwise integrability judgment. Given the scarcity of labeled data in data lakes, we propose a self-supervised adversarial contrastive learning algorithm to perform classification, which incorporates data augmentation methods and adversarial examples to autonomously generate new training data. Upon the output of pairwise integrability judgment, each integrable set can be considered as a community, a densely connected sub-graph where nodes and edges correspond to tuples in the table and their pairwise integrability respectively, we proceed to investigate various community detection algorithms to address the integrable set discovery objective. Moving forward to tackle multi-tuple conflict resolution, we introduce an innovative in-context learning methodology. This approach capitalizes on the knowledge embedded within large language models (LLMs) to effectively resolve conflicts that arise when integrating multiple tuples. Notably, our method minimizes the need for annotated data, making it particularly suited for scenarios where labeled datasets are scarce.
- Abstract(参考訳): テーブル統合は、関連する情報を含むタプルを統合することで、包括的なテーブルを作成することを目的としている。
本研究では,データレイクから複数のテーブルを統合する上での課題について検討する。
1) タプル対が可積分であるか否かを判断する対等可積分性判定は,意味的等価性又は類型的誤りの発生を考慮したものである。
2) テーブル内のすべての可積分集合を第一のタスクで確立されたペアの可積分性判断に基づいて識別する可積分集合発見
3) 統合中に複数のタプル間のコンフリクトを解決するマルチタプルコンフリクト解決。
この目的のために、ペアワイズ積分可能性判定の課題に対応するためにバイナリ分類器を訓練する。
データレイクにおけるラベル付きデータの不足を考慮し,データ拡張手法と敵例を組み込んだ自己教師型逆学習アルゴリズムを提案する。
相互可積分性判定の出力は,各可積分集合を集合とみなすことができ,ノードとエッジがそれぞれテーブル内のタプルとそれらのペア可積分性に対応するような密接な連結部分グラフとみなすことができる。
マルチタプルコンフリクト解決に取り組み、革新的なインコンテキスト学習手法を導入する。
このアプローチは、大きな言語モデル(LLM)に埋め込まれた知識を利用して、複数のタプルを統合するときに発生する競合を効果的に解決する。
特に,アノテートデータの必要性を最小限に抑え,ラベル付きデータセットが不足するシナリオに特に適している。
関連論文リスト
- Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - The Battleship Approach to the Low Resource Entity Matching Problem [0.0]
本稿では,エンティティマッチング問題に対する新しいアクティブな学習手法を提案する。
我々は、エンティティマッチングのユニークな特性を利用する選択メカニズムに焦点を当てる。
実験により,提案アルゴリズムは,最先端のアクティブ・ラーニング・ソリューションより低リソース・エンティティ・マッチングに優れることを示した。
論文 参考訳(メタデータ) (2023-11-27T10:18:17Z) - Towards Integration of Discriminability and Robustness for
Document-Level Relation Extraction [41.51148745387936]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の長距離コンテキスト依存推論に依存するエンティティペアの関係を予測する。
本研究では,DocRE問題に対する差別性とロバスト性の両方をよりよく統合することを目的としている。
エントロピーの最小化と教師付きコントラスト学習を革新的にカスタマイズする。
論文 参考訳(メタデータ) (2023-04-03T09:11:18Z) - Deep Learning to Jointly Schema Match, Impute, and Transform Databases [19.200830026362425]
複数の原点からのデータを非マップで部分的に重複する機能で結合することは、堅牢で一般化可能なアルゴリズムを開発するための前提条件である。
我々はこの問題に対処する2つの新しい手順を策定する。
2つの電子健康記録データベースを用いた合成および実世界の実験において、我々のアルゴリズムは可変集合に適合する既存のベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-06-22T21:25:59Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。
我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文 参考訳(メタデータ) (2021-07-10T02:43:16Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Wisdom of the Ensemble: Improving Consistency of Deep Learning Models [11.230300336108018]
信頼はしばしば一定の行動の関数である。
本稿では,配備モデルの周期的再学習の文脈におけるモデル挙動について検討する。
アンサンブル学習者の整合性と整合性は,個々の学習者の平均整合性と整合性に劣らないことを示す。
論文 参考訳(メタデータ) (2020-11-13T07:47:01Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。