論文の概要: Table Integration in Data Lakes Unleashed: Pairwise Integrability Judgment, Integrable Set Discovery, and Multi-Tuple Conflict Resolution
- arxiv url: http://arxiv.org/abs/2412.00324v2
- Date: Sun, 13 Apr 2025 13:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 19:48:45.508817
- Title: Table Integration in Data Lakes Unleashed: Pairwise Integrability Judgment, Integrable Set Discovery, and Multi-Tuple Conflict Resolution
- Title(参考訳): データレイクにおけるテーブル統合: ペアワイズ・インテグレータビリティ・アジャッジメント、インテグレータ・セットディスカバリ、マルチタプル・コンフリクト・リゾリューション
- Authors: Daomin Ji, Hui Luo, Zhifeng Bao, Shane Culpepper,
- Abstract要約: 対角的可積分性判定の課題に対処するために,二進的教師付き対角学習アルゴリズムを訓練する。
マルチタプルコンフリクト解決に対処する革新的なインコンテキスト学習手法を提案する。
- 参考スコア(独自算出の注目度): 11.719923132819158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table integration aims to create a comprehensive table by consolidating tuples containing relevant information. In this work, we investigate the challenge of integrating multiple tables from a data lake, focusing on three core tasks: 1) pairwise integrability judgment, which determines whether a tuple pair is integrable, accounting for any occurrences of semantic equivalence or typographical errors; 2) integrable set discovery, which identifies all integrable sets in a table based on pairwise integrability judgments established in the first task; 3) multi-tuple conflict resolution, which resolves conflicts between multiple tuples during integration. To this end, we train a binary classifier to address the task of pairwise integrability judgment. Given the scarcity of labeled data in data lakes, we propose a self-supervised adversarial contrastive learning algorithm to perform classification, which incorporates data augmentation methods and adversarial examples to autonomously generate new training data. Upon the output of pairwise integrability judgment, each integrable set can be considered as a community, a densely connected sub-graph where nodes and edges correspond to tuples in the table and their pairwise integrability respectively, we proceed to investigate various community detection algorithms to address the integrable set discovery objective. Moving forward to tackle multi-tuple conflict resolution, we introduce an innovative in-context learning methodology. This approach capitalizes on the knowledge embedded within large language models (LLMs) to effectively resolve conflicts that arise when integrating multiple tuples. Notably, our method minimizes the need for annotated data, making it particularly suited for scenarios where labeled datasets are scarce.
- Abstract(参考訳): テーブル統合は、関連する情報を含むタプルを統合することで、包括的なテーブルを作成することを目的としている。
本研究では,データレイクから複数のテーブルを統合する上での課題について検討する。
1) タプル対が可積分であるか否かを判断する対等可積分性判定は,意味的等価性又は類型的誤りの発生を考慮したものである。
2) テーブル内のすべての可積分集合を第一のタスクで確立されたペアの可積分性判断に基づいて識別する可積分集合発見
3) 統合中に複数のタプル間のコンフリクトを解決するマルチタプルコンフリクト解決。
この目的のために、ペアワイズ積分可能性判定の課題に対応するためにバイナリ分類器を訓練する。
データレイクにおけるラベル付きデータの不足を考慮し,データ拡張手法と敵例を組み込んだ自己教師型逆学習アルゴリズムを提案する。
相互可積分性判定の出力は,各可積分集合を集合とみなすことができ,ノードとエッジがそれぞれテーブル内のタプルとそれらのペア可積分性に対応するような密接な連結部分グラフとみなすことができる。
マルチタプルコンフリクト解決に取り組み、革新的なインコンテキスト学習手法を導入する。
このアプローチは、大きな言語モデル(LLM)に埋め込まれた知識を利用して、複数のタプルを統合するときに発生する競合を効果的に解決する。
特に,アノテートデータの必要性を最小限に抑え,ラベル付きデータセットが不足するシナリオに特に適している。
関連論文リスト
- Fuzzy Integration of Data Lake Tables [9.758870410954271]
本稿では,Flull Disjunction内での近似やファジィマッチングの接合を可能にする新しいデータ駆動方式を提案する。
ファジィフル・ディジャンクションは、最先端のフル・ディジャンクション実装にかなりの時間的オーバーヘッドを与えないことを示す。
論文 参考訳(メタデータ) (2025-01-16T00:06:33Z) - MISFEAT: Feature Selection for Subgroups with Systematic Missing Data [8.063972429611365]
サブグループのオールに対していくつかの特徴値が欠落するシナリオである、体系的な欠落データという課題に対処する。
我々のゴールは、ある一定サイズのトップK特徴部分集合を、ターゲット変数との最も高い結合情報で識別することである。
異種グラフニューラルネットワークを用いた一般化可能なモデルを提案し,特徴-部分群-ターゲット変数間の相互依存性を同定する。
論文 参考訳(メタデータ) (2024-12-09T17:59:59Z) - Prompt-Matcher: Leveraging Large Models to Reduce Uncertainty in Schema Matching Results [1.13107643869251]
本稿では,大規模言語モデルの特定のプロンプトを用いた細粒度対応検証に基づく新しい手法を提案する。
本手法は,(1)対応選択アルゴリズム,(2)対応検証,(3)確率分布の更新の3つの主成分からなる反復ループである。
本稿では,計算効率においてブルートアルゴリズムを著しく上回る新しい$(1-1/e)$-approximationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-24T16:54:08Z) - A Bi-consolidating Model for Joint Relational Triple Extraction [3.972061685570092]
リレーショナルトリプルを抽出する現在の手法は、エンティティ認識に依存することなく、生文の可能なエンティティペアに基づいて直接予測を行う。
このタスクは、複数の関係三重項が文中に1つまたは2つの実体を共有するという深刻な意味的重なり合う問題に悩まされる。
関係三重関係に関連する局所的・大域的意味的特徴を同時に強化することにより、この問題に対処するバイコンソリデーションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-05T04:04:23Z) - Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - The Battleship Approach to the Low Resource Entity Matching Problem [0.0]
本稿では,エンティティマッチング問題に対する新しいアクティブな学習手法を提案する。
我々は、エンティティマッチングのユニークな特性を利用する選択メカニズムに焦点を当てる。
実験により,提案アルゴリズムは,最先端のアクティブ・ラーニング・ソリューションより低リソース・エンティティ・マッチングに優れることを示した。
論文 参考訳(メタデータ) (2023-11-27T10:18:17Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Towards Integration of Discriminability and Robustness for
Document-Level Relation Extraction [41.51148745387936]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の長距離コンテキスト依存推論に依存するエンティティペアの関係を予測する。
本研究では,DocRE問題に対する差別性とロバスト性の両方をよりよく統合することを目的としている。
エントロピーの最小化と教師付きコントラスト学習を革新的にカスタマイズする。
論文 参考訳(メタデータ) (2023-04-03T09:11:18Z) - Deep Learning to Jointly Schema Match, Impute, and Transform Databases [19.200830026362425]
複数の原点からのデータを非マップで部分的に重複する機能で結合することは、堅牢で一般化可能なアルゴリズムを開発するための前提条件である。
我々はこの問題に対処する2つの新しい手順を策定する。
2つの電子健康記録データベースを用いた合成および実世界の実験において、我々のアルゴリズムは可変集合に適合する既存のベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-06-22T21:25:59Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Wisdom of the Ensemble: Improving Consistency of Deep Learning Models [11.230300336108018]
信頼はしばしば一定の行動の関数である。
本稿では,配備モデルの周期的再学習の文脈におけるモデル挙動について検討する。
アンサンブル学習者の整合性と整合性は,個々の学習者の平均整合性と整合性に劣らないことを示す。
論文 参考訳(メタデータ) (2020-11-13T07:47:01Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。