論文の概要: Robust Table Integration in Data Lakes
- arxiv url: http://arxiv.org/abs/2412.00324v1
- Date: Sat, 30 Nov 2024 02:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:13.633296
- Title: Robust Table Integration in Data Lakes
- Title(参考訳): データレイクにおけるロバストテーブルの統合
- Authors: Daomin Ji, Hui Luo, Zhifeng Bao, Shane Culpepper,
- Abstract要約: 本稿では,データレイクからテーブルを統合することの課題について検討する。
我々は、ペアワイズ積分可能性判定、可積分集合発見、マルチタプルコンフリクト解決という3つの中核課題に焦点をあてる。
- 参考スコア(独自算出の注目度): 11.719923132819158
- License:
- Abstract: In this paper, we investigate the challenge of integrating tables from data lakes, focusing on three core tasks: 1) pairwise integrability judgment, which determines whether a tuple pair in a table is integrable, accounting for any occurrences of semantic equivalence or typographical errors; 2) integrable set discovery, which aims to identify all integrable sets in a table based on pairwise integrability judgments established in the first task; 3) multi-tuple conflict resolution, which resolves conflicts among multiple tuples during integration. We train a binary classifier to address the task of pairwise integrability judgment. Given the scarcity of labeled data, we propose a self-supervised adversarial contrastive learning algorithm to perform classification, which incorporates data augmentation methods and adversarial examples to autonomously generate new training data. Upon the output of pairwise integrability judgment, each integrable set is considered as a community, a densely connected sub-graph where nodes and edges correspond to tuples in the table and their pairwise integrability, respectively. We proceed to investigate various community detection algorithms to address the integrable set discovery objective. Moving forward to tackle multi-tuple conflict resolution, we introduce an novel in-context learning methodology. This approach capitalizes on the knowledge embedded within pretrained large language models to effectively resolve conflicts that arise when integrating multiple tuples. Notably, our method minimizes the need for annotated data. Since no suitable test collections are available for our tasks, we develop our own benchmarks using two real-word dataset repositories: Real and Join. We conduct extensive experiments on these benchmarks to validate the robustness and applicability of our methodologies in the context of integrating tables within data lakes.
- Abstract(参考訳): 本稿では,3つのコアタスクに着目し,データレイクからテーブルを統合することの課題について検討する。
1) 表の中のタプル対が可積分であるか否かを判定し,意味的同値性又は類型的誤りの発生を考慮に入れた対等可積分性判定
2) テーブル内のすべての可積分集合を第一のタスクで確立されたペアの可積分性判定に基づいて識別することを目的とした可積分集合発見
3) 統合中に複数のタプル間のコンフリクトを解決するマルチタプルコンフリクト解決。
ペアワイズ積分可能性判定の課題に対処するために、バイナリ分類器を訓練する。
ラベル付きデータの不足を考慮し,データ拡張手法と逆例を組み込んだ自己教師付き対向学習アルゴリズムを提案し,新たなトレーニングデータを生成する。
ペアワイズ可積分性判定の出力に際し、各可積分集合をコミュニティとみなし、ノードとエッジがそれぞれテーブル内のタプルに対応し、そのペアワイズ可積分性に対応する密接な連結部分グラフとする。
我々は,統合可能な集合発見目的に対処するために,様々なコミュニティ検出アルゴリズムについて検討する。
マルチタプルコンフリクト解決に取り組み,新しいコンテキスト内学習手法を導入する。
このアプローチは、トレーニング済みの大規模言語モデルに埋め込まれた知識を活用して、複数のタプルを統合するときに発生する競合を効果的に解決する。
特に,本手法は注釈付きデータの必要性を最小限に抑える。
タスクに適したテストコレクションが存在しないため、RealとJoinの2つのリアルワードデータセットリポジトリを使用して、独自のベンチマークを開発しています。
データレイクにおけるテーブルの統合という文脈における方法論の堅牢性と適用性を検証するため,これらのベンチマークについて広範な実験を行った。
関連論文リスト
- Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - The Battleship Approach to the Low Resource Entity Matching Problem [0.0]
本稿では,エンティティマッチング問題に対する新しいアクティブな学習手法を提案する。
我々は、エンティティマッチングのユニークな特性を利用する選択メカニズムに焦点を当てる。
実験により,提案アルゴリズムは,最先端のアクティブ・ラーニング・ソリューションより低リソース・エンティティ・マッチングに優れることを示した。
論文 参考訳(メタデータ) (2023-11-27T10:18:17Z) - Towards Integration of Discriminability and Robustness for
Document-Level Relation Extraction [41.51148745387936]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の長距離コンテキスト依存推論に依存するエンティティペアの関係を予測する。
本研究では,DocRE問題に対する差別性とロバスト性の両方をよりよく統合することを目的としている。
エントロピーの最小化と教師付きコントラスト学習を革新的にカスタマイズする。
論文 参考訳(メタデータ) (2023-04-03T09:11:18Z) - Deep Learning to Jointly Schema Match, Impute, and Transform Databases [19.200830026362425]
複数の原点からのデータを非マップで部分的に重複する機能で結合することは、堅牢で一般化可能なアルゴリズムを開発するための前提条件である。
我々はこの問題に対処する2つの新しい手順を策定する。
2つの電子健康記録データベースを用いた合成および実世界の実験において、我々のアルゴリズムは可変集合に適合する既存のベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-06-22T21:25:59Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。
我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文 参考訳(メタデータ) (2021-07-10T02:43:16Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Wisdom of the Ensemble: Improving Consistency of Deep Learning Models [11.230300336108018]
信頼はしばしば一定の行動の関数である。
本稿では,配備モデルの周期的再学習の文脈におけるモデル挙動について検討する。
アンサンブル学習者の整合性と整合性は,個々の学習者の平均整合性と整合性に劣らないことを示す。
論文 参考訳(メタデータ) (2020-11-13T07:47:01Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。