論文の概要: WDC Products: A Multi-Dimensional Entity Matching Benchmark
- arxiv url: http://arxiv.org/abs/2301.09521v1
- Date: Mon, 23 Jan 2023 16:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 13:08:59.363190
- Title: WDC Products: A Multi-Dimensional Entity Matching Benchmark
- Title(参考訳): WDC製品: 多次元エンティティマッチングベンチマーク
- Authors: Ralph Peeters, Reng Chiz Der, Christian Bizer
- Abstract要約: WDC Productsは、何千ものe-Shopの異種製品データに基づくエンティティマッチングベンチマークである。
我々は,Ditto,HierGAT,R-SupConなど,最先端のマッチングシステムを用いてWDC製品を評価する。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The difficulty of an entity matching task depends on a combination of
multiple factors such as the amount of corner-case pairs, the fraction of
entities in the test set that have not been seen during training, and the size
of the development set. Current entity matching benchmarks usually represent
single points in the space along such dimensions or they provide for the
evaluation of matching methods along a single dimension, for instance the
amount of training data. This paper presents WDC Products, an entity matching
benchmark which provides for the systematic evaluation of matching systems
along combinations of three dimensions while relying on real-word data. The
three dimensions are (i) amount of corner-cases (ii) generalization to unseen
entities, and (iii) development set size. Generalization to unseen entities is
a dimension not covered by any of the existing benchmarks yet but is crucial
for evaluating the robustness of entity matching systems. WDC Products is based
on heterogeneous product data from thousands of e-shops which mark-up products
offers using schema.org annotations. Instead of learning how to match entity
pairs, entity matching can also be formulated as a multi-class classification
task that requires the matcher to recognize individual entities. WDC Products
is the first benchmark that provides a pair-wise and a multi-class formulation
of the same tasks and thus allows to directly compare the two alternatives. We
evaluate WDC Products using several state-of-the-art matching systems,
including Ditto, HierGAT, and R-SupCon. The evaluation shows that all matching
systems struggle with unseen entities to varying degrees. It also shows that
some systems are more training data efficient than others.
- Abstract(参考訳): エンティティマッチングタスクの難しさは、コーナーケースペアの量、トレーニング中に見られなかったテストセット内のエンティティの割合、開発セットのサイズといった、複数の要因の組み合わせに依存する。
現在のエンティティマッチングベンチマークは、通常、そのような次元に沿った空間内の単一点を表すか、単一の次元に沿ったマッチングメソッドの評価(例えばトレーニングデータの量)を提供する。
本稿では,実単語データに依存しながら3次元の組み合わせによるマッチングシステムの体系的評価を行うエンティティマッチングベンチマークであるwdc製品について述べる。
3次元は
(i)コーナーケースの量
(二 見えない実体への一般化、及び
(iii)開発セットのサイズ。
unseenエンティティへの一般化は、既存のベンチマークではカバーされていない次元であるが、エンティティマッチングシステムの堅牢性を評価するために重要である。
WDC Productsは、スキーマ.orgアノテーションを使ったマークアップ製品が提供する何千ものe-shopsの異種製品データに基づいている。
エンティティペアのマッチング方法を学ぶ代わりに、エンティティマッチングは、マーカが個々のエンティティを認識する必要があるマルチクラス分類タスクとして定式化することもできる。
wdc productsは、ペアワイズとマルチクラスによる同じタスクの定式化を提供する最初のベンチマークであり、この2つの選択肢を直接比較することができる。
我々は,Ditto,HierGAT,R-SupConなど,最先端のマッチングシステムを用いてWDC製品を評価する。
評価の結果、全てのマッチングシステムは、異なる程度に認識されない実体に苦しむことが示された。
また、あるシステムは他のシステムよりも効率的なトレーニングデータを持つことも示している。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation [1.7812428873698403]
本稿では,要約統計をモニタリングする統合フレームワークと統合したエンティティ中心のデータラベリング手法を提案する。
これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。
論文 参考訳(メタデータ) (2024-04-08T15:53:29Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。
実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文 参考訳(メタデータ) (2024-02-01T18:52:26Z) - Attribute-Consistent Knowledge Graph Representation Learning for
Multi-Modal Entity Alignment [14.658282035561792]
MMEA(ACK-MMEA)のための属性一貫性のある知識グラフ表現学習フレームワークを提案する。
当社のアプローチは、競合他社と比較して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-04T06:39:36Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - Represent, Compare, and Learn: A Similarity-Aware Framework for
Class-Agnostic Counting [30.34585324943777]
クラスに依存しないカウントは、例の少ないクエリイメージですべてのインスタンスをカウントすることを目的としている。
既存の手法では、事前訓練されたネットワークを使って特徴を表現するか、新しいものを学ぶ。
本稿では,表現と類似度を共同で学習する類似度対応CACフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-16T02:24:25Z) - Heterogeneous Network Representation Learning: A Unified Framework with
Survey and Benchmark [57.10850350508929]
我々は、異種ネットワーク埋め込み(HNE)に関する既存の研究を要約し、評価するための統一的なフレームワークを提供することを目指している。
最初のコントリビューションとして、既存のHNEアルゴリズムのメリットを体系的に分類し分析するための一般的なパラダイムを提供する。
第2のコントリビューションとして、さまざまなソースから、スケール、構造、属性/ラベルの可用性などに関するさまざまな特性を備えた4つのベンチマークデータセットを作成します。
第3のコントリビューションとして、13の人気のあるHNEアルゴリズムに対するフレンドリなインターフェースを作成し、複数のタスクと実験的な設定に対して、それらの全周比較を提供する。
論文 参考訳(メタデータ) (2020-04-01T03:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。