論文の概要: WDC Products: A Multi-Dimensional Entity Matching Benchmark
- arxiv url: http://arxiv.org/abs/2301.09521v1
- Date: Mon, 23 Jan 2023 16:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 13:08:59.363190
- Title: WDC Products: A Multi-Dimensional Entity Matching Benchmark
- Title(参考訳): WDC製品: 多次元エンティティマッチングベンチマーク
- Authors: Ralph Peeters, Reng Chiz Der, Christian Bizer
- Abstract要約: WDC Productsは、何千ものe-Shopの異種製品データに基づくエンティティマッチングベンチマークである。
我々は,Ditto,HierGAT,R-SupConなど,最先端のマッチングシステムを用いてWDC製品を評価する。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The difficulty of an entity matching task depends on a combination of
multiple factors such as the amount of corner-case pairs, the fraction of
entities in the test set that have not been seen during training, and the size
of the development set. Current entity matching benchmarks usually represent
single points in the space along such dimensions or they provide for the
evaluation of matching methods along a single dimension, for instance the
amount of training data. This paper presents WDC Products, an entity matching
benchmark which provides for the systematic evaluation of matching systems
along combinations of three dimensions while relying on real-word data. The
three dimensions are (i) amount of corner-cases (ii) generalization to unseen
entities, and (iii) development set size. Generalization to unseen entities is
a dimension not covered by any of the existing benchmarks yet but is crucial
for evaluating the robustness of entity matching systems. WDC Products is based
on heterogeneous product data from thousands of e-shops which mark-up products
offers using schema.org annotations. Instead of learning how to match entity
pairs, entity matching can also be formulated as a multi-class classification
task that requires the matcher to recognize individual entities. WDC Products
is the first benchmark that provides a pair-wise and a multi-class formulation
of the same tasks and thus allows to directly compare the two alternatives. We
evaluate WDC Products using several state-of-the-art matching systems,
including Ditto, HierGAT, and R-SupCon. The evaluation shows that all matching
systems struggle with unseen entities to varying degrees. It also shows that
some systems are more training data efficient than others.
- Abstract(参考訳): エンティティマッチングタスクの難しさは、コーナーケースペアの量、トレーニング中に見られなかったテストセット内のエンティティの割合、開発セットのサイズといった、複数の要因の組み合わせに依存する。
現在のエンティティマッチングベンチマークは、通常、そのような次元に沿った空間内の単一点を表すか、単一の次元に沿ったマッチングメソッドの評価(例えばトレーニングデータの量)を提供する。
本稿では,実単語データに依存しながら3次元の組み合わせによるマッチングシステムの体系的評価を行うエンティティマッチングベンチマークであるwdc製品について述べる。
3次元は
(i)コーナーケースの量
(二 見えない実体への一般化、及び
(iii)開発セットのサイズ。
unseenエンティティへの一般化は、既存のベンチマークではカバーされていない次元であるが、エンティティマッチングシステムの堅牢性を評価するために重要である。
WDC Productsは、スキーマ.orgアノテーションを使ったマークアップ製品が提供する何千ものe-shopsの異種製品データに基づいている。
エンティティペアのマッチング方法を学ぶ代わりに、エンティティマッチングは、マーカが個々のエンティティを認識する必要があるマルチクラス分類タスクとして定式化することもできる。
wdc productsは、ペアワイズとマルチクラスによる同じタスクの定式化を提供する最初のベンチマークであり、この2つの選択肢を直接比較することができる。
我々は,Ditto,HierGAT,R-SupConなど,最先端のマッチングシステムを用いてWDC製品を評価する。
評価の結果、全てのマッチングシステムは、異なる程度に認識されない実体に苦しむことが示された。
また、あるシステムは他のシステムよりも効率的なトレーニングデータを持つことも示している。
関連論文リスト
- Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Associating Objects with Scalable Transformers for Video Object
Segmentation [74.43311945044807]
本稿では,複数のオブジェクトを協調的かつ協調的にマッチング・復号するAssociating Objects with Transformers (AOT)アプローチを提案する。
詳しくは、AOTは複数のターゲットを同じ高次元の埋め込み空間に関連付けるための識別機構を使用している。
3つの人気のあるベンチマークで最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Represent, Compare, and Learn: A Similarity-Aware Framework for
Class-Agnostic Counting [30.34585324943777]
クラスに依存しないカウントは、例の少ないクエリイメージですべてのインスタンスをカウントすることを目的としている。
既存の手法では、事前訓練されたネットワークを使って特徴を表現するか、新しいものを学ぶ。
本稿では,表現と類似度を共同で学習する類似度対応CACフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-16T02:24:25Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Informed Multi-context Entity Alignment [27.679124991733907]
Informed Multi-context Entity Alignment (IMEA)モデルを提案する。
特にTransformerを導入し、関係、経路、近傍のコンテキストを柔軟にキャプチャする。
総論的推論は、埋め込み類似性と関係性/整合性の両方の機能に基づいてアライメント確率を推定するために用いられる。
いくつかのベンチマークデータセットの結果は、既存の最先端エンティティアライメント手法と比較して、IMEAモデルの優位性を示している。
論文 参考訳(メタデータ) (2022-01-02T06:29:30Z) - TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-02T16:39:35Z) - Associating Objects with Transformers for Video Object Segmentation [74.51719591192787]
本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
論文 参考訳(メタデータ) (2021-06-04T17:59:57Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Heterogeneous Network Representation Learning: A Unified Framework with
Survey and Benchmark [57.10850350508929]
我々は、異種ネットワーク埋め込み(HNE)に関する既存の研究を要約し、評価するための統一的なフレームワークを提供することを目指している。
最初のコントリビューションとして、既存のHNEアルゴリズムのメリットを体系的に分類し分析するための一般的なパラダイムを提供する。
第2のコントリビューションとして、さまざまなソースから、スケール、構造、属性/ラベルの可用性などに関するさまざまな特性を備えた4つのベンチマークデータセットを作成します。
第3のコントリビューションとして、13の人気のあるHNEアルゴリズムに対するフレンドリなインターフェースを作成し、複数のタスクと実験的な設定に対して、それらの全周比較を提供する。
論文 参考訳(メタデータ) (2020-04-01T03:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。