論文の概要: MultiEM: Efficient and Effective Unsupervised Multi-Table Entity
Matching
- arxiv url: http://arxiv.org/abs/2308.01927v1
- Date: Wed, 2 Aug 2023 11:39:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 15:11:01.762281
- Title: MultiEM: Efficient and Effective Unsupervised Multi-Table Entity
Matching
- Title(参考訳): MultiEM: 効率的で効果的な教師なしマルチテーブルエンティティマッチング
- Authors: Xiaocan Zeng, Pengfei Wang, Yuren Mao, Lu Chen, Xiaoze Liu, Yunjun Gao
- Abstract要約: MultiEMは、強化されたエンティティ表現、テーブルワイドの階層的マージ、密度ベースのプルーニングのパイプラインである。
本稿では,教師なしマルチテーブル・エンティティマッチングの問題点を公式に研究する。
これは、MultiEMと呼ばれる効果的で効率的なソリューションを提案する。
- 参考スコア(独自算出の注目度): 24.273783234231242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity Matching (EM), which aims to identify all entity pairs referring to
the same real-world entity from relational tables, is one of the most important
tasks in real-world data management systems. Due to the labeling process of EM
being extremely labor-intensive, unsupervised EM is more applicable than
supervised EM in practical scenarios. Traditional unsupervised EM assumes that
all entities come from two tables; however, it is more common to match entities
from multiple tables in practical applications, that is, multi-table entity
matching (multi-table EM). Unfortunately, effective and efficient unsupervised
multi-table EM remains under-explored. To fill this gap, this paper formally
studies the problem of unsupervised multi-table entity matching and proposes an
effective and efficient solution, termed as MultiEM. MultiEM is a parallelable
pipeline of enhanced entity representation, table-wise hierarchical merging,
and density-based pruning. Extensive experimental results on six real-world
benchmark datasets demonstrate the superiority of MultiEM in terms of
effectiveness and efficiency.
- Abstract(参考訳): エンティティマッチング(EM)は、リレーショナルテーブルから同じ実世界のエンティティを参照するすべてのエンティティペアを識別することを目的としており、実世界のデータ管理システムにおいて最も重要なタスクの1つである。
EMのラベル付けプロセスは非常に労働集約的であるため、非教師なしEMは実際のシナリオでは教師なしEMよりも適用可能である。
従来の教師なしEMは、全てのエンティティは2つのテーブルから来ると仮定するが、実用アプリケーションにおける複数のテーブルのエンティティ、すなわちマルチテーブルのエンティティマッチング(multi-table EM)はより一般的である。
残念ながら、効率的で効率的なマルチテーブルemは未検討のままである。
このギャップを埋めるために、教師なしマルチテーブルエンティティマッチングの問題を正式に研究し、MultiEMと呼ばれる効率的かつ効率的なソリューションを提案する。
MultiEMは、拡張エンティティ表現、テーブルワイド階層マージ、密度ベースプルーニングの並列パイプラインである。
6つの実世界のベンチマークデータセットの大規模な実験結果から、MultiEMの有効性と効率性が示された。
関連論文リスト
- 2D-TPE: Two-Dimensional Positional Encoding Enhances Table Understanding for Large Language Models [48.123582712115336]
既存の方法はしばしば2次元のテーブル構造をトークンの列に平らにする。
2D-TPEは、計算効率を保ちながら本質的な空間情報を失うリスクを効果的に軽減する。
5つのベンチマークによる大規模な実験は、2D-TPEが強いベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2024-09-29T13:16:37Z) - EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model [14.767055057048855]
データ効率・計算効率・マルチモーダル大言語モデル(EE-MLLM)について紹介する。
EE-MLLMは、追加モジュールや学習可能なパラメータを導入することなく、データと計算効率の両方を達成する。
実験により,EE-MLLMのベンチマークにおける有効性を示した。
論文 参考訳(メタデータ) (2024-08-21T17:36:37Z) - HMDN: Hierarchical Multi-Distribution Network for Click-Through Rate Prediction [26.32695178700689]
階層型マルチディストリビューションネットワーク(HMDN)というフレキシブルなモデリングパラダイムを提案する。
HMDNは、混合マルチディストリビューションを効率的にモデル化し、既存のマルチディストリビューション手法とシームレスに統合することができる。
HMDNの有効性と柔軟性は,公立および工業用両方のデータセットで実験的に検証された。
論文 参考訳(メタデータ) (2024-08-02T15:29:59Z) - Leveraging Large Language Models for Entity Matching [0.0]
本稿では,大規模言語モデル(LLM)のエンティティマッチング(EM)への応用について検討する。
LLMは、高度なセマンティック理解とコンテキスト能力を活用して、EMにトランスフォーメーションポテンシャルを提供する。
我々は,弱い監督と教師なしのアプローチをEMに適用する関連研究をレビューし,LLMがこれらの手法をどのように拡張できるかを強調した。
論文 参考訳(メタデータ) (2024-05-31T05:22:07Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。