論文の概要: Heterogeneous Entity Matching with Complex Attribute Associations using
BERT and Neural Networks
- arxiv url: http://arxiv.org/abs/2309.11046v1
- Date: Wed, 20 Sep 2023 03:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 17:24:01.530941
- Title: Heterogeneous Entity Matching with Complex Attribute Associations using
BERT and Neural Networks
- Title(参考訳): bertとニューラルネットワークを用いた複合属性アソシエーションによる異種エンティティマッチング
- Authors: Shitao Wang and Jiamin Lu
- Abstract要約: 複雑な属性関係をキャプチャするエンティティマッチングモデル(EMM-CCAR)を導入する。
具体的には、マッチングタスクをシーケンスマッチング問題に変換して、さまざまなデータフォーマットの影響を軽減する。
DER-SSMとDittoのアプローチと比較すると,F1スコアの約4%,F1スコアの約1%の改善が得られた。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Across various domains, data from different sources such as Baidu Baike and
Wikipedia often manifest in distinct forms. Current entity matching
methodologies predominantly focus on homogeneous data, characterized by
attributes that share the same structure and concise attribute values. However,
this orientation poses challenges in handling data with diverse formats.
Moreover, prevailing approaches aggregate the similarity of attribute values
between corresponding attributes to ascertain entity similarity. Yet, they
often overlook the intricate interrelationships between attributes, where one
attribute may have multiple associations. The simplistic approach of pairwise
attribute comparison fails to harness the wealth of information encapsulated
within entities.To address these challenges, we introduce a novel entity
matching model, dubbed Entity Matching Model for Capturing Complex Attribute
Relationships(EMM-CCAR),built upon pre-trained models. Specifically, this model
transforms the matching task into a sequence matching problem to mitigate the
impact of varying data formats. Moreover, by introducing attention mechanisms,
it identifies complex relationships between attributes, emphasizing the degree
of matching among multiple attributes rather than one-to-one correspondences.
Through the integration of the EMM-CCAR model, we adeptly surmount the
challenges posed by data heterogeneity and intricate attribute
interdependencies. In comparison with the prevalent DER-SSM and Ditto
approaches, our model achieves improvements of approximately 4% and 1% in F1
scores, respectively. This furnishes a robust solution for addressing the
intricacies of attribute complexity in entity matching.
- Abstract(参考訳): さまざまなドメインにわたって、Baidu BaikeやWikipediaのような異なるソースからのデータは、しばしば異なる形式で表される。
現在のエンティティマッチング手法は主に均質なデータに焦点を当てており、同じ構造と簡潔な属性値を共有する属性が特徴である。
しかし、このオリエンテーションは様々なフォーマットでデータを扱う際に問題を引き起こす。
さらに、それに対応する属性間の属性値の類似性を集約し、エンティティの類似性を確認する。
しかし、属性間の複雑な相互関係は見過ごされ、ある属性が複数の関連を持つ可能性がある。
これらの課題に対処するために,我々は,事前学習されたモデルに基づいて構築された,複合属性関係をキャプチャするエンティティマッチングモデル(Entity Matching Model for Capturing Complex Attribute Relationships,EMM-CCAR)を導入する。
具体的には、このモデルはマッチングタスクをシーケンスマッチング問題に変換し、さまざまなデータフォーマットの影響を軽減する。
さらに注意機構を導入することで,属性間の複雑な関係を識別し,1対1の対応ではなく,複数の属性間のマッチングの程度を強調する。
EMM-CCARモデルの統合により,データの不均一性と複雑な属性相互依存性によって生じる課題を十分に克服する。
従来のDER-SSMとDittoのアプローチと比較すると,F1スコアの約4%と1%の改善が達成されている。
これにより、エンティティマッチングにおける属性複雑性の複雑さに対処する堅牢なソリューションが提供される。
関連論文リスト
- ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - A Solution to Co-occurrence Bias: Attributes Disentanglement via Mutual
Information Minimization for Pedestrian Attribute Recognition [10.821982414387525]
そこで本研究では,現在の手法が,データセット分布のシーンやアイデンティティに適合する属性の相互依存性の一般化に実際に苦慮していることを示す。
現実的な場面で頑健なモデルをレンダリングするために,属性不整形特徴学習を提案し,属性の認識が他者の存在に依存しないことを保証する。
論文 参考訳(メタデータ) (2023-07-28T01:34:55Z) - Attribute-Consistent Knowledge Graph Representation Learning for
Multi-Modal Entity Alignment [14.658282035561792]
MMEA(ACK-MMEA)のための属性一貫性のある知識グラフ表現学習フレームワークを提案する。
当社のアプローチは、競合他社と比較して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-04T06:39:36Z) - Interpretable and Low-Resource Entity Matching via Decoupling Feature
Learning from Decision Making [22.755892575582788]
Entity Matchingは、同じ現実世界のオブジェクトを表すエンティティレコードを認識することを目的としている。
異種情報融合(HIF)とキー属性ツリー(KAT)誘導からなる新しいEMフレームワークを提案する。
提案手法は効率が高く,ほとんどの場合SOTA EMモデルより優れている。
論文 参考訳(メタデータ) (2021-06-08T08:27:31Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z) - Neural Graph Matching based Collaborative Filtering [13.086302251856756]
属性相互作用の2つの異なるタイプ、内部相互作用とクロス相互作用を識別する。
既存のモデルはこれら2種類の属性相互作用を区別しない。
ニューラルグラフマッチングに基づく協調フィルタリングモデル(GMCF)を提案する。
我々のモデルは最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-05-10T01:51:46Z) - AttriMeter: An Attribute-guided Metric Interpreter for Person
Re-Identification [100.3112429685558]
Person ReIDシステムは、2人とのマッチング時にのみ距離や類似性を提供します。
CNN ベースの ReID モデルの結果を意味的に,定量的に説明する Attribute-Guided Metric Interpreter を提案する。
論文 参考訳(メタデータ) (2021-03-02T03:37:48Z) - Unsupervised Heterogeneous Coupling Learning for Categorical
Representation [50.1603042640492]
この研究は、結合間の相互作用を解き放ち、結合したカテゴリデータを表現するためのUNTIE(UNsupervised heTerogeneous couplIng lEarning)アプローチを導入する。
UNTIEは、ヘテロジニアスおよび階層的値-オブジェクト結合の教師なし表現学習のために、カーネルk平均目的関数を効率よく最適化する。
UNTIEで学習した表現は、最先端のカテゴリ表現やディープ表現モデルに対して大幅な性能改善を行う。
論文 参考訳(メタデータ) (2020-07-21T11:23:27Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z) - Hierarchical Feature Embedding for Attribute Recognition [26.79901907956084]
本稿では,属性情報とID情報を組み合わせることで,詳細な特徴埋め込みを学習する階層的特徴埋め込みフレームワークを提案する。
提案手法は,2つの歩行者属性データセットと顔属性データセットに対して,最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-05-23T17:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。