論文の概要: Robust Table Integration in Data Lakes
- arxiv url: http://arxiv.org/abs/2412.00324v1
- Date: Sat, 30 Nov 2024 02:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:21.748695
- Title: Robust Table Integration in Data Lakes
- Title(参考訳): データレイクにおけるロバストテーブルの統合
- Authors: Daomin Ji, Hui Luo, Zhifeng Bao, Shane Culpepper,
- Abstract要約: 本稿では,データレイクからテーブルを統合することの課題について検討する。
我々は、ペアワイズ積分可能性判定、可積分集合発見、マルチタプルコンフリクト解決という3つの中核課題に焦点をあてる。
- 参考スコア(独自算出の注目度): 11.719923132819158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the challenge of integrating tables from data lakes, focusing on three core tasks: 1) pairwise integrability judgment, which determines whether a tuple pair in a table is integrable, accounting for any occurrences of semantic equivalence or typographical errors; 2) integrable set discovery, which aims to identify all integrable sets in a table based on pairwise integrability judgments established in the first task; 3) multi-tuple conflict resolution, which resolves conflicts among multiple tuples during integration. We train a binary classifier to address the task of pairwise integrability judgment. Given the scarcity of labeled data, we propose a self-supervised adversarial contrastive learning algorithm to perform classification, which incorporates data augmentation methods and adversarial examples to autonomously generate new training data. Upon the output of pairwise integrability judgment, each integrable set is considered as a community, a densely connected sub-graph where nodes and edges correspond to tuples in the table and their pairwise integrability, respectively. We proceed to investigate various community detection algorithms to address the integrable set discovery objective. Moving forward to tackle multi-tuple conflict resolution, we introduce an novel in-context learning methodology. This approach capitalizes on the knowledge embedded within pretrained large language models to effectively resolve conflicts that arise when integrating multiple tuples. Notably, our method minimizes the need for annotated data. Since no suitable test collections are available for our tasks, we develop our own benchmarks using two real-word dataset repositories: Real and Join. We conduct extensive experiments on these benchmarks to validate the robustness and applicability of our methodologies in the context of integrating tables within data lakes.
- Abstract(参考訳): 本稿では,3つのコアタスクに着目し,データレイクからテーブルを統合することの課題について検討する。
1) 表の中のタプル対が可積分であるか否かを判定し,意味的同値性又は類型的誤りの発生を考慮に入れた対等可積分性判定
2) テーブル内のすべての可積分集合を第一のタスクで確立されたペアの可積分性判定に基づいて識別することを目的とした可積分集合発見
3) 統合中に複数のタプル間のコンフリクトを解決するマルチタプルコンフリクト解決。
ペアワイズ積分可能性判定の課題に対処するために、バイナリ分類器を訓練する。
ラベル付きデータの不足を考慮し,データ拡張手法と逆例を組み込んだ自己教師付き対向学習アルゴリズムを提案し,新たなトレーニングデータを生成する。
ペアワイズ可積分性判定の出力に際し、各可積分集合をコミュニティとみなし、ノードとエッジがそれぞれテーブル内のタプルに対応し、そのペアワイズ可積分性に対応する密接な連結部分グラフとする。
我々は,統合可能な集合発見目的に対処するために,様々なコミュニティ検出アルゴリズムについて検討する。
マルチタプルコンフリクト解決に取り組み,新しいコンテキスト内学習手法を導入する。
このアプローチは、トレーニング済みの大規模言語モデルに埋め込まれた知識を活用して、複数のタプルを統合するときに発生する競合を効果的に解決する。
特に,本手法は注釈付きデータの必要性を最小限に抑える。
タスクに適したテストコレクションが存在しないため、RealとJoinの2つのリアルワードデータセットリポジトリを使用して、独自のベンチマークを開発しています。
データレイクにおけるテーブルの統合という文脈における方法論の堅牢性と適用性を検証するため,これらのベンチマークについて広範な実験を行った。
関連論文リスト
- Fuzzy Integration of Data Lake Tables [9.758870410954271]
本稿では,Flull Disjunction内での近似やファジィマッチングの接合を可能にする新しいデータ駆動方式を提案する。
ファジィフル・ディジャンクションは、最先端のフル・ディジャンクション実装にかなりの時間的オーバーヘッドを与えないことを示す。
論文 参考訳(メタデータ) (2025-01-16T00:06:33Z) - MISFEAT: Feature Selection for Subgroups with Systematic Missing Data [8.063972429611365]
サブグループのオールに対していくつかの特徴値が欠落するシナリオである、体系的な欠落データという課題に対処する。
我々のゴールは、ある一定サイズのトップK特徴部分集合を、ターゲット変数との最も高い結合情報で識別することである。
異種グラフニューラルネットワークを用いた一般化可能なモデルを提案し,特徴-部分群-ターゲット変数間の相互依存性を同定する。
論文 参考訳(メタデータ) (2024-12-09T17:59:59Z) - Prompt-Matcher: Leveraging Large Models to Reduce Uncertainty in Schema Matching Results [1.13107643869251]
本稿では,大規模言語モデルの特定のプロンプトを用いた細粒度対応検証に基づく新しい手法を提案する。
本手法は,(1)対応選択アルゴリズム,(2)対応検証,(3)確率分布の更新の3つの主成分からなる反復ループである。
本稿では,計算効率においてブルートアルゴリズムを著しく上回る新しい$(1-1/e)$-approximationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-24T16:54:08Z) - A Bi-consolidating Model for Joint Relational Triple Extraction [3.972061685570092]
リレーショナルトリプルを抽出する現在の手法は、エンティティ認識に依存することなく、生文の可能なエンティティペアに基づいて直接予測を行う。
このタスクは、複数の関係三重項が文中に1つまたは2つの実体を共有するという深刻な意味的重なり合う問題に悩まされる。
関係三重関係に関連する局所的・大域的意味的特徴を同時に強化することにより、この問題に対処するバイコンソリデーションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-05T04:04:23Z) - Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - The Battleship Approach to the Low Resource Entity Matching Problem [0.0]
本稿では,エンティティマッチング問題に対する新しいアクティブな学習手法を提案する。
我々は、エンティティマッチングのユニークな特性を利用する選択メカニズムに焦点を当てる。
実験により,提案アルゴリズムは,最先端のアクティブ・ラーニング・ソリューションより低リソース・エンティティ・マッチングに優れることを示した。
論文 参考訳(メタデータ) (2023-11-27T10:18:17Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Towards Integration of Discriminability and Robustness for
Document-Level Relation Extraction [41.51148745387936]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の長距離コンテキスト依存推論に依存するエンティティペアの関係を予測する。
本研究では,DocRE問題に対する差別性とロバスト性の両方をよりよく統合することを目的としている。
エントロピーの最小化と教師付きコントラスト学習を革新的にカスタマイズする。
論文 参考訳(メタデータ) (2023-04-03T09:11:18Z) - Deep Learning to Jointly Schema Match, Impute, and Transform Databases [19.200830026362425]
複数の原点からのデータを非マップで部分的に重複する機能で結合することは、堅牢で一般化可能なアルゴリズムを開発するための前提条件である。
我々はこの問題に対処する2つの新しい手順を策定する。
2つの電子健康記録データベースを用いた合成および実世界の実験において、我々のアルゴリズムは可変集合に適合する既存のベースラインよりも優れている。
論文 参考訳(メタデータ) (2022-06-22T21:25:59Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Wisdom of the Ensemble: Improving Consistency of Deep Learning Models [11.230300336108018]
信頼はしばしば一定の行動の関数である。
本稿では,配備モデルの周期的再学習の文脈におけるモデル挙動について検討する。
アンサンブル学習者の整合性と整合性は,個々の学習者の平均整合性と整合性に劣らないことを示す。
論文 参考訳(メタデータ) (2020-11-13T07:47:01Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。