Fugu-MT 論文翻訳(概要): WDC Products: A Multi-Dimensional Entity Matching Benchmark

論文の概要: WDC Products: A Multi-Dimensional Entity Matching Benchmark

arxiv url: http://arxiv.org/abs/2301.09521v1
Date: Mon, 23 Jan 2023 16:12:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-24 13:08:59.363190
Title: WDC Products: A Multi-Dimensional Entity Matching Benchmark
Title（参考訳）: WDC製品: 多次元エンティティマッチングベンチマーク
Authors: Ralph Peeters, Reng Chiz Der, Christian Bizer
Abstract要約: WDC Productsは、何千ものe-Shopの異種製品データに基づくエンティティマッチングベンチマークである。我々は,Ditto,HierGAT,R-SupConなど,最先端のマッチングシステムを用いてWDC製品を評価する。
参考スコア（独自算出の注目度）: 1.933681537640272
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The difficulty of an entity matching task depends on a combination of multiple factors such as the amount of corner-case pairs, the fraction of entities in the test set that have not been seen during training, and the size of the development set. Current entity matching benchmarks usually represent single points in the space along such dimensions or they provide for the evaluation of matching methods along a single dimension, for instance the amount of training data. This paper presents WDC Products, an entity matching benchmark which provides for the systematic evaluation of matching systems along combinations of three dimensions while relying on real-word data. The three dimensions are (i) amount of corner-cases (ii) generalization to unseen entities, and (iii) development set size. Generalization to unseen entities is a dimension not covered by any of the existing benchmarks yet but is crucial for evaluating the robustness of entity matching systems. WDC Products is based on heterogeneous product data from thousands of e-shops which mark-up products offers using schema.org annotations. Instead of learning how to match entity pairs, entity matching can also be formulated as a multi-class classification task that requires the matcher to recognize individual entities. WDC Products is the first benchmark that provides a pair-wise and a multi-class formulation of the same tasks and thus allows to directly compare the two alternatives. We evaluate WDC Products using several state-of-the-art matching systems, including Ditto, HierGAT, and R-SupCon. The evaluation shows that all matching systems struggle with unseen entities to varying degrees. It also shows that some systems are more training data efficient than others.
Abstract（参考訳）: エンティティマッチングタスクの難しさは、コーナーケースペアの量、トレーニング中に見られなかったテストセット内のエンティティの割合、開発セットのサイズといった、複数の要因の組み合わせに依存する。現在のエンティティマッチングベンチマークは、通常、そのような次元に沿った空間内の単一点を表すか、単一の次元に沿ったマッチングメソッドの評価(例えばトレーニングデータの量)を提供する。本稿では,実単語データに依存しながら3次元の組み合わせによるマッチングシステムの体系的評価を行うエンティティマッチングベンチマークであるwdc製品について述べる。 3次元は (i)コーナーケースの量 (二見えない実体への一般化、及び (iii)開発セットのサイズ。 unseenエンティティへの一般化は、既存のベンチマークではカバーされていない次元であるが、エンティティマッチングシステムの堅牢性を評価するために重要である。 WDC Productsは、スキーマ.orgアノテーションを使ったマークアップ製品が提供する何千ものe-shopsの異種製品データに基づいている。エンティティペアのマッチング方法を学ぶ代わりに、エンティティマッチングは、マーカが個々のエンティティを認識する必要があるマルチクラス分類タスクとして定式化することもできる。 wdc productsは、ペアワイズとマルチクラスによる同じタスクの定式化を提供する最初のベンチマークであり、この2つの選択肢を直接比較することができる。我々は,Ditto,HierGAT,R-SupConなど,最先端のマッチングシステムを用いてWDC製品を評価する。評価の結果、全てのマッチングシステムは、異なる程度に認識されない実体に苦しむことが示された。また、あるシステムは他のシステムよりも効率的なトレーニングデータを持つことも示している。

関連論文リスト

Full Triple Matcher: Integrating all triple elements between heterogeneous Knowledge Graphs [0.09471093245585005]
知識グラフ(KG)は構造化情報の表現と推論のための強力なツールである。現在のアプローチは、多様で複雑なコンテキストを統合する必要があるシナリオでは不足する可能性がある。ラベルマッチングと3重マッチングからなる新しいKG積分法を提案する。
論文参考訳（メタデータ） (2025-07-20T07:46:55Z)
CORG: Generating Answers from Complex, Interrelated Contexts [57.213304718157985]
現実世界のコーパスでは、知識は文書間で頻繁に再帰するが、曖昧な命名、時代遅れの情報、エラーのためにしばしば矛盾を含む。以前の研究では、言語モデルはこれらの複雑さに苦しむことが示されており、典型的には孤立した単一要因に焦点を当てている。複数のコンテキストを個別に処理されたグループに整理するフレームワークであるContext Organizer (CORG)を紹介する。
論文参考訳（メタデータ） (2025-04-25T02:40:48Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-29T15:04:53Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation [1.7812428873698403]
本稿では,要約統計をモニタリングする統合フレームワークと統合したエンティティ中心のデータラベリング手法を提案する。これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。
論文参考訳（メタデータ） (2024-04-08T15:53:29Z)
Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。 GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文参考訳（メタデータ） (2024-04-02T04:27:54Z)
Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文参考訳（メタデータ） (2024-02-01T18:52:26Z)
Attribute-Consistent Knowledge Graph Representation Learning for Multi-Modal Entity Alignment [14.658282035561792]
MMEA(ACK-MMEA)のための属性一貫性のある知識グラフ表現学習フレームワークを提案する。当社のアプローチは、競合他社と比較して優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-04-04T06:39:36Z)
UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。 We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文参考訳（メタデータ） (2022-04-28T08:35:26Z)
Represent, Compare, and Learn: A Similarity-Aware Framework for Class-Agnostic Counting [30.34585324943777]
クラスに依存しないカウントは、例の少ないクエリイメージですべてのインスタンスをカウントすることを目的としている。既存の手法では、事前訓練されたネットワークを使って特徴を表現するか、新しいものを学ぶ。本稿では,表現と類似度を共同で学習する類似度対応CACフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-16T02:24:25Z)
Heterogeneous Network Representation Learning: A Unified Framework with Survey and Benchmark [57.10850350508929]
我々は、異種ネットワーク埋め込み(HNE)に関する既存の研究を要約し、評価するための統一的なフレームワークを提供することを目指している。最初のコントリビューションとして、既存のHNEアルゴリズムのメリットを体系的に分類し分析するための一般的なパラダイムを提供する。第2のコントリビューションとして、さまざまなソースから、スケール、構造、属性/ラベルの可用性などに関するさまざまな特性を備えた4つのベンチマークデータセットを作成します。第3のコントリビューションとして、13の人気のあるHNEアルゴリズムに対するフレンドリなインターフェースを作成し、複数のタスクと実験的な設定に対して、それらの全周比較を提供する。
論文参考訳（メタデータ） (2020-04-01T03:42:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。