論文の概要、ライセンス

# (参考訳) エンティティマッチングの現実と理想のギャップを埋める - 再訪とベンチマークの再構築 [全文訳有]

Bridging the Gap between Reality and Ideality of Entity Matching: A Revisiting and Benchmark Re-Construction ( http://arxiv.org/abs/2205.05889v1 )

ライセンス: CC BY 4.0
Tianshu Wang, Hongyu Lin, Cheng Fu, Xianpei Han, Le Sun, Feiyu Xiong, Hui Chen, Minlong Lu, Xiuwen Zhu(参考訳) エンティティマッチング(EM)はエンティティ解決(ER)の最も重要なステップである。 現在のディープラーニングベースのメソッドは、標準のEMベンチマークで非常に印象的なパフォーマンスを実現していますが、実際のアプリケーションパフォーマンスはずっとフラストレーションがあります。 本稿では、現実と理想性のギャップは、エンティティマッチングの性質と矛盾する不合理なベンチマーク構築プロセスに起因し、現在のEMアプローチのバイアス評価につながることを強調する。 この目的のために,前回のベンチマークにおいて制限されたエンティティ,バランスラベル,シングルモーダルレコードをオープンエンティティ,不均衡ラベル,マルチモーダルレコードに段階的に変更することにより,前回のベンチマーク構築プロセスにおいて暗黙の重大な仮定に挑戦するために,新たなemコーパスを構築し,emベンチマークを再構築する。 実験結果から,従来のベンチマーク構築プロセスにおける仮定は,タスクの主な課題を隠蔽し,実体マッチングの現在の進展を著しく過大評価するオープン環境と一致しないことが示された。 構築されたベンチマークとコードが公開されている

Entity matching (EM) is the most critical step for entity resolution (ER). While current deep learningbased methods achieve very impressive performance on standard EM benchmarks, their realworld application performance is much frustrating. In this paper, we highlight that such the gap between reality and ideality stems from the unreasonable benchmark construction process, which is inconsistent with the nature of entity matching and therefore leads to biased evaluations of current EM approaches. To this end, we build a new EM corpus and re-construct EM benchmarks to challenge critical assumptions implicit in the previous benchmark construction process by step-wisely changing the restricted entities, balanced labels, and single-modal records in previous benchmarks into open entities, imbalanced labels, and multimodal records in an open environment. Experimental results demonstrate that the assumptions made in the previous benchmark construction process are not coincidental with the open environment, which conceal the main challenges of the task and therefore significantly overestimate the current progress of entity matching. The constructed benchmarks and code are publicly released
公開日: Thu, 12 May 2022 05:50:30 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] L C . s c [ 1 v 9 8 8 5 0 ]LC。 sc [ 1 v 9 8 8 5 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Bridging the Gap between Reality and Ideality of Entity Matching: 実体マッチングの現実と虚偽のギャップを埋める: 0.64
A Revisiting and Benchmark Re-Construction 再考とベンチマークの再構成 0.61
Tianshu Wang1,4 , Hongyu Lin1∗ , Cheng Fu1 , Xianpei Han1,2,5∗ , Le Sun1,2 , 天守王1,4,ホンジュリン1∗,チェンフー1,xianpeihan1,2,5∗,le sun1,2, 0.52
Feiyu Xiong3 , Hui Chen3 , Minlong Lu3 , Xiuwen Zhu3 梅雨3号、白陳3号、ミンロン・ル3号、Xiuwen Zhu3号 0.52
1Chinese Information Processing Laboratory 2State Key Laboratory of Computer Science 中国情報処理研究所2. コンピュータ科学のキーラボ 0.81
Institute of Software, Chinese Academy of Sciences 中国科学院ソフトウェア研究所 0.58
3Alibaba Group, China 中国の3Alibaba Group 0.90
4Hangzhou Institute for Advanced Study, University of Chinese Academy of Sciences 中国科学大学 四広州高等研究所 0.46
5Beijing Academy of Artificial Intelligence 5Beijing Academy of Artificial Intelligence (英語) 0.67
{tianshu2020, hongyu, fucheng, xianpei, sunle}@iscas.ac.cn, {tianshu2020, hongyu, fucheng, xianpei, sunle}@iscas.ac.cn, 0.44
{feiyu.xfy, weidu.ch, luminlong.lml, xiuwen.zxw}@alibaba-inc.com fiyu.xfy, weidu.ch, luminlong.lml, xiuwen.zxw}@alibaba-inc.com 0.29
Abstract Entity matching (EM) is the most critical step for entity resolution (ER). 概要 エンティティマッチング(EM)はエンティティ解決(ER)の最も重要なステップである。 0.59
While current deep learningbased methods achieve very impressive performance on standard EM benchmarks, their realworld application performance is much frustrating. 現在のディープラーニングベースのメソッドは、標準のEMベンチマークで非常に印象的なパフォーマンスを実現していますが、実際のアプリケーションパフォーマンスはずっとフラストレーションがあります。 0.44
In this paper, we highlight that such the gap between reality and ideality stems from the unreasonable benchmark construction process, which is inconsistent with the nature of entity matching and therefore leads to biased evaluations of current EM approaches. 本稿では、現実と理想性のギャップは、エンティティマッチングの性質と矛盾する不合理なベンチマーク構築プロセスに起因し、現在のEMアプローチのバイアス評価につながることを強調する。
訳抜け防止モード: 本稿では,現実と理想性のギャップが,不合理なベンチマーク構築プロセスに起因することを強調する。 これはエンティティマッチングの性質と矛盾しないため、現在のEMアプローチのバイアス評価につながる。
0.74
To this end, we build a new EM corpus and re-construct EM benchmarks to challenge critical assumptions implicit in the previous benchmark construction process by step-wisely changing the restricted entities, balanced labels, and single-modal records in previous benchmarks into open entities, imbalanced labels, and multimodal records in an open environment. この目的のために,前回のベンチマークにおいて制限されたエンティティ,バランスラベル,シングルモーダルレコードをオープンエンティティ,不均衡ラベル,マルチモーダルレコードに段階的に変更することにより,前回のベンチマーク構築プロセスにおいて暗黙の重大な仮定に挑戦するために,新たなemコーパスを構築し,emベンチマークを再構築する。 0.61
Experimental results demonstrate that the assumptions made in the previous benchmark construction process are not coincidental with the open environment, which conceal the main challenges of the task and therefore significantly overestimate the current progress of entity matching. 実験結果から,従来のベンチマーク構築プロセスにおける仮定は,タスクの主な課題を隠蔽し,実体マッチングの現在の進展を著しく過大評価するオープン環境と一致しないことが示された。 0.84
The constructed benchmarks and code are publicly released 1. ビルドされたベンチマークとコードがリリースされている。 0.48
1 Introduction Entity resolution, also known as record linkage [Fellegi and Sunter, 1969] or deduplication [Meyer and Bolosky, 2012], is about merging records that refer to the same real-world entity. 1 introduction entity resolution、別名 record linkage [fellegi and sunter, 1969] あるいは deduplication [meyer and bolosky, 2012] は、同じ実世界のエンティティを参照するレコードをマージするものである。 0.72
Entity matching (EM) aims to identify whether two entity records refer to the same real-world entity, which is the most critical step for entity resolution. エンティティマッチング(EM)は、2つのエンティティレコードが同じ現実世界のエンティティを指すかどうかを特定することを目的としている。 0.69
For example, an effective entity matcher should resolve the two entity records “iPhone 例えば、効果的なエンティティマッチングは2つのエンティティレコードを解決すべきである。 0.63
∗Corresponding author. 1https://github.com/ tshu-w/ember 共著者。 1https://github.com/ tshu-w/ember 0.34
Figure 1: Current benchmarks for EM commonly consider restricted entities, balanced labels, and single modality. 図1: EMの現在のベンチマークでは、制限されたエンティティ、バランスの取れたラベル、単一モダリティが一般的に検討されている。 0.42
However, these conditions do not hold in an open environment, therefore leading to the inconsistency between benchmark performance and real-world applications. しかし、これらの条件はオープンな環境では成立しないため、ベンチマーク性能と実世界のアプリケーションとの矛盾が生じる。 0.67
13 Pro, CA” and “apple, iphone, 13 pro” into the same entity cluster because they refer to the same real-world product. 13 Pro, CA” と “apple, iphone, 13 Pro” は同じエンティティクラスタになる。
訳抜け防止モード: 13 Pro, CA ” と “ apple, iphone, 13 Pro ” は同一のエンティティクラスタである。 それらは同じ現実世界の製品を指します。
0.87
Recent years have witnessed the impressive development of EM approaches, especially with the rapid progress of deep learning-based methods [Mudgal et al , 2018; Fu et al , 2020; Li et al , 2020]. 近年,特に深層学習に基づく手法(mudgal et al , 2018 年,fu et al , 2020 年,li et al , 2020 年)の急速な進歩に伴い,em アプローチの印象的な発展が見られた。 0.82
Commonly, these methods are evaluated on the various EM benchmarks [Primpeli and Bizer, 2020] from different domains but constructed with a similar process. 一般に、これらの手法は異なるドメインから様々なEMベンチマーク(Primpeli と Bizer, 2020)で評価されるが、同様のプロセスで構築される。 0.66
The state-of-the-art (SOTA) approaches have achieved over 90% F1 score on most of these datasets, which shows their strong effectiveness on these benchmarks. 最先端のSOTA(State-of-the-ar t)アプローチは、これらのデータセットのほとんどで90%以上のF1スコアを達成した。 0.64
However, once launched in real applications, the SOTA EM systems can become frustrating due to the discrepancies between current benchmarks and the open environment. しかし、一度実際のアプリケーションで起動すると、現在のベンチマークとオープン環境の相違により、SOTA EMシステムはフラストレーションになる可能性がある。 0.54
Such discrepancies result in biased scores on the established benchmarks which can not well represent the real-world application performance. このような不一致は、実世界のアプリケーションパフォーマンスを適切に表現できない、確立されたベンチマークのバイアススコアをもたらす。 0.52
Unfortunately, there is no literature looking deep into this reality-ideality gap of entity matching, and therefore causes and effects of these discrepancies are not well studied. 残念ながら、エンティティマッチングの現実と理想のギャップを深く掘り下げた文献は存在せず、これらの相違の原因と効果は十分に研究されていない。 0.65
As a result, we are unable to evaluate the actual progress of novel approaches to real-world entity matching. その結果、実世界のエンティティマッチングに対する新しいアプローチの実際の進歩を評価することができない。 0.78
the discrepancies between benchmarks and the open environment stem from the implicit, unaware assumptions introduced during common ベンチマークとオープン環境の相違は、共通中に導入された暗黙の無意識の仮定に由来する 0.69
In this paper, we highlight that 本稿で強調する。 あれ 0.58
(a) Current Benchmarks(●,●,✓) (●,▲,✓) (▲,■,✗) (●,■, ?)Restricted Entities, Balanced Labels & Single Modality (a)カレントベンチマーク(シュ,シュ,シュ)(シュ,シュ,シュ)(シュ,シュ,シュ)(シュ,シュ,?)制限された実体、バランスラベル、シングルモダリティ 0.47
(b) Real-world Scenarios(●,■, ?)(●,□, ?)(✧,■, ?)(◇, ◇, ?)(△, ✧,?)Open EntitiesImbalanced LabelsMulti Modality✓✓✗✗✗✗✗✗✗matchedmismatched!"●TitleiPhone 13BrandApplePrice$ 799 (b)現実世界のシナリオ(...)--------------- -------------------- -------------------- -------------------- -------------------- -------------------- -------------------- -------------------- -------------------- -------------------- -------------------- -------------------- -------------- 0.04
英語(論文から抽出)日本語訳スコア
Benchmarks abt-buy [Mudgal et al , 2018] ベンチマーク abt-buy [Mudgal et al , 2018] 0.52
amazon-google [Mudgal et al , 2018] amazon-google [Mudgal et al , 2018] 0.48
dblp-acm [Mudgal et al , 2018] dblp-scholar [Mudgal et al , 2018] dblp-acm [Mudgal et al , 2018] dblp-scholar [Mudgal et al , 2018] 0.48
walmart-amazon [Mudgal et al , 2018] walmart-amazon [Mudgal et al , 2018] 0.48
cora [Wang et al , 2011] cora [Wang et al , 2011] 0.42
wdc cameras [Primpeli et al , 2019] wdc watchers [Primpeli et al , 2019] wdc computers [Primpeli et al , 2019] wdcカメラ [primpeli et al , 2019] wdcウォッチャー [primpeli et al , 2019] wdcコンピュータ [primpeli et al , 2019] 0.40
wdc shoes [Primpeli et al , 2019] wdcのシューズ[primpeli et al, 2019] 0.84
Seen Seen Mismatched Clusters Records 96% 97% 100% 100% 99% 100% 78% 81% 72% 62% 世円 Seen Mismatched Clusters Records 96% 97% 100% 100% 100% 99% 100% 78% 81% 72% 62% 0.42
Matched: ≈1:6 ≈1:6 ≈1:20 ≈1:15 ≈1:12 ≈1:4 ≈1:3 ≈1:3 ≈1:3 ≈1:3 Matched: ≈1:6 ≈1:6 ≈1:20 ≈1:15 ≈1:12 ≈1:4 ≈1:3 ≈1:3 ≈1:3 ≈1:3 0.18
99% 99% 100% 100% 100% 100% 100% 100% 100% 100% 99% 99% 100% 100% 100% 100% 100% 100% 100% 100% 0.42
Table 1: Overview of previous EM benchmarks. 表1: 以前のEMベンチマークの概要。 0.73
We omit the datasets in some benchmarks whose test set is less than 100 instances. テストセットが100インスタンス未満のベンチマークでは、データセットを省略します。 0.67
We can see that they are with very high seen cluster and record ratios, as well as a relatively low mismatched/matched ratio. クラスタとレコードの比率が非常に高く、ミスマッチ/マッチングの比率が比較的低いことが分かります。
訳抜け防止モード: 非常に高いクラスタと記録比率を持っていることが分かります。 また、比較的低いミスマッチ/マッチした比率も。
0.68
However, these conditions no longer hold in an open environment. しかし、これらの条件はもはやオープンな環境では保たない。 0.70
benchmark construction. Such erroneous assumptions conceal the main challenges of entity matching, which lead to high performance on current benchmarks. ベンチマーク構築。 このような誤った仮定は、エンティティマッチングの主な課題を隠蔽し、現在のベンチマークで高いパフォーマンスをもたらす。 0.52
Unfortunately, these assumptions do not hold in real-world scenarios, and therefore discrepancies between benchmarks and the open environment occur. 残念ながら、これらの仮定は現実世界のシナリオでは成立しないため、ベンチマークとオープン環境の相違が発生する。 0.59
Specifically, as illustrated in Figure 1, there are three critical erroneous assumptions made when constructing training and test sets of current EM benchmarks: • Restricted Entity Assumption, which means that the entity clusters and/or entity records in the test sets of current benchmarks are mostly covered by records in the training sets, as shown in Table 1. 具体的には、図1に示すように、現在のemベンチマークのトレーニングとテストセットを構築する際に行われる3つの重要な誤った仮定があります。
訳抜け防止モード: 具体的には、図1に示すように、3つの重大な誤った仮定がある。 現在のEMベンチマークのトレーニングとテストセットの構築 :•制限されたエンティティ割り当て、つまりエンティティクラスタ 現在のベンチマークのテストセットにおけるおよび/またはエンティティレコードは、主にトレーニングセットのレコードで覆われています。 表1に示すように。
0.65
This assumption is made because of the cluster/record sampling strategies applied for current benchmarks. この仮定は、現在のベンチマークに適用されるクラスタ/レコードサンプリング戦略によってなされる。 0.60
Unfortunately, none of the mainstream entity resolution applications can meet, even be close to, such an assumption, because an effective entity matcher should be able to deal with unseen clusters and records in an open environment. 残念なことに、メインストリームのエンティティ解決アプリケーションはどれも、そのような仮定を満たすことができない。効果的なエンティティマッチングは、オープン環境で、目に見えないクラスタとレコードを処理できる必要があるからだ。 0.54
As a result, current benchmarks are unable to evaluate entity matchers in an open environment. その結果、現在のベンチマークでは、オープン環境でエンティティマッチングを評価することができない。 0.55
• Balanced Label Assumption, which means that the ratios of mismatched to matched instances are relatively low and quite close in training and test sets of benchmarks. これは、マッチしたインスタンスに対するミスマッチの割合が比較的低く、トレーニングやベンチマークのテストセットでは非常に近いことを意味する。
訳抜け防止モード: •バランスの取れたラベル消費とは、一致したインスタンスに対するミスマッチの比率が比較的低いことを意味する。 ベンチマークのトレーニングとテストセットに非常に近い。
0.65
However, entity matching is an extremely imbalanced problem in real-world applications, and such the mismatched/matched ratio is commonly unknown and diverges significantly. しかし、実体マッチングは現実のアプリケーションでは極めて不均衡な問題であり、不一致/整合比は一般的に不明であり、大きく分岐する。 0.62
Even with the prior blocking step, the ratio of mismatched record pairs to matched pairs can be up to 100:1 [Thirumuruganathan et al , 2021]. 前回のブロッキングステップであっても、マッチしたペアに対するミスマッチしたレコード対の比率は100:1(Thirumuruganat han et al ,2021]となる。 0.64
This poses the critical but ignored challenge to train and evaluate entity matchers in highly-imbalanced settings. これは、高度にバランスのとれた設定でエンティティマッチングを訓練し、評価する上で、批判的だが無視される課題である。
訳抜け防止モード: これは批判的だが無視される課題です 高度にバランスの取れない設定でエンティティマッチングを訓練し、評価する。
0.44
As a result, current benchmarks are unable to evaluate entity matchers in the real-world imbalanced situation. その結果、現在のベンチマークでは、実世界の不均衡状況においてエンティティマッチングを評価することができない。
訳抜け防止モード: その結果 現在のベンチマークでは 実世界の不均衡状況におけるエンティティマッチングを評価する。
0.71
• Single Modality Assumption, which means current benchmarks mainly focus on textual attributes of entity records. つまり、現在のベンチマークは主にエンティティレコードのテキスト属性に焦点を当てています。
訳抜け防止モード: •単一モダリティ推定 現在のベンチマークは主にエンティティレコードのテキスト属性に焦点を当てています。
0.82
This is due to the absence of the high-quality multi-modal entity corpus. これは高品質のマルチモーダルエンティティコーパスがないためである。 0.62
However, in an open environment with noisy textual attributes, information from other modalities like images or audio can play a decisive role in entity matching. しかし、ノイズの多いテキスト属性を持つオープンな環境では、画像やオーディオなどの他のモダリティからの情報は、エンティティマッチングにおいて決定的な役割を果たす。 0.62
As a result, current benchmarks are difficult to be applied to accurately evaluate the effectiveness of multi-modal information for EM. その結果、emに対するマルチモーダル情報の有効性を正確に評価するには、現在のベンチマークを適用することが困難である。
訳抜け防止モード: その結果 現在のベンチマークは emのマルチモーダル情報の有効性を正確に評価するために適用すること。
0.65
To assess how these three implicit assumptions bias eval- これら3つの暗黙の仮定の偏りの評価- 0.61
uations of entity matchers, this paper constructs a new multi-modal corpus, which comes from a large Chinese ecommerce website and contains more than 120,000 records for 10,000 products. 本論文は,中国の大手電子商取引サイトから作成され,1万件の商品に対して12万件以上のレコードを含むマルチモーダルコーパスを構築した。 0.68
Each record in the corpus is with a highquality image attribute. コーパス内の各レコードは高品質の画像属性を持つ。 0.81
Then starting from the corpus and standard benchmark construction criteria, we re-construct new benchmarks by removing the above-mentioned three erroneous assumptions step-by-step to revisit how these assumptions influence the evaluations on previous benchmarks. 次に、コーパスと標準ベンチマーク構築基準から、上記の3つの誤った仮定を段階的に取り除き、これらの仮定が以前のベンチマークの評価にどのように影響するかを再検討することで、新しいベンチマークを再構築する。 0.49
Specifically, for restricted entity assumption, we propose to leverage more practical cluster/record sampling strategies to build three benchmarks based on three most common EM application paradigms. 具体的には、制限されたエンティティ仮定に対して、より実用的なクラスタ/レコードサンプリング戦略を活用し、3つの一般的なEMアプリケーションパラダイムに基づいた3つのベンチマークを構築することを提案する。 0.53
For balanced label assumption, we vary the ratio of mismatched to matched instances on training and test set respectively to see how the real-world imbalanced situation can influence the evaluation. バランスの取れたラベル仮定では,実世界の不均衡状況が評価にどのように影響するかを確認するために,トレーニングとテストセットにおけるマッチしたインスタンスに対するミスマッチの割合をそれぞれ変化させる。 0.63
For single modality assumption, we thoroughly evaluate the effectiveness of introducing visual attributes based on the above real-world settings. 単一モダリティの仮定では、上記の実世界設定に基づいて視覚属性の導入の有効性を徹底的に評価する。 0.64
From the newly re-constructed benchmarks, we find previous benchmarks are far from evaluating entity matching in an open environment because 新たに再構成されたベンチマークから、以前のベンチマークはオープン環境でのエンティティマッチングを評価するには程遠いことが分かる。 0.54
• Restricted Entity Assumption biases the nature of the task of entity matching. • 制限されたエンティティ仮定は、エンティティマッチングのタスクの性質に偏ります。 0.66
The assumption changes the task from learning an effective matcher to learning effective representations of seen clusters/records. この仮定は、効果的なマッチングの学習から、見たクラスタ/レコードの効果的な表現の学習へとタスクを変更します。 0.48
This discrepancy makes previous benchmarks significantly overestimate the performance of current entity matchers. この不一致により、以前のベンチマークは現在のエンティティマッチングの性能を著しく過大評価している。 0.46
• Balanced Label Assumption conceals the most critical challenge of entity matching. ^ Balanced Label Assumptionはエンティティマッチングの最も重要な課題を隠蔽する。 0.65
We find that in realworld imbalanced scenarios, the performance on imbalanced test sets will dramatically diverge from the evaluation results on previous benchmarks, no matter how the degree of balance of the training set changes. 実世界の不均衡なシナリオでは、トレーニングセットのバランスの程度がどう変化しても、不均衡なテストセットのパフォーマンスは以前のベンチマークでの評価結果から劇的にばらつきます。 0.80
• Single Modality Assumption stems from the underestimation of the importance of multi-modality on previous benchmarks. • 単一モダリティ推定は、以前のベンチマークにおけるマルチモダリティの重要性の過小評価に由来する。 0.69
We find that in the open environment, visual information can improve the performance of entity matching significantly. オープンな環境では、視覚情報はエンティティマッチングの性能を大幅に向上させることができる。 0.70
Moreover, the importance of visual information can significantly rise especially in open and imbalanced settings. さらに、視覚情報の重要性は、特にオープンかつアンバランスな環境で顕著に上昇する可能性がある。 0.58
This also confirms that previous restricted entities and balanced label benchmarks can not well estimate the effectiveness of multi-modal entity matchers. これはまた、以前の制限されたエンティティとバランスの取れたラベルベンチマークでは、マルチモーダルエンティティマッチングの有効性を十分に評価できないことも確認している。
訳抜け防止モード: これはまた 従来の制限付きエンティティとバランス付きラベルベンチマークでは、マルチモーダルエンティティマッチングの有効性を十分に評価できない。
0.63
Our re-constructed benchmark clearly shows that previous benchmark construction criteria can not cover the main challenges of entity matching, and there is still a long way to build an effective entity matcher in an open environment. 構築済みのベンチマークは、以前のベンチマーク構築基準がエンティティマッチングの主な課題をカバーできないことを明確に示しており、オープン環境で効果的なエンティティマッチングを構築するには長い道のりがあります。 0.64
Generally speaking, the main contributions of this paper are: 一般的に、この論文の主な貢献は次のとおりである。 0.70
• We reveal three implicit assumptions behind current EM benchmarks. • 現在のEMベンチマークの背後にある3つの暗黙の仮定を明らかにする。 0.42
These assumptions are introduced during the benchmark construction process, which leads to significant discrepancies between current benchmarks and open environment. これらの仮定は、ベンチマーク構築プロセス中に導入され、現在のベンチマークとオープン環境の間に重大な食い違いが生じる。 0.48
• We build a new multi-modal entity matching corpus. • 新しいマルチモーダルなエンティティマッチングコーパスを構築します。 0.75
The corpus contains more than 120,000 multimodal records for 10,000 products. コーパスには1万製品で12万以上のマルチモーダルレコードが含まれている。 0.50
This corpus provides a solid foundation for evaluating the impact of above このコーパスは上記の影響を評価するための確かな基盤を提供する 0.65
英語(論文から抽出)日本語訳スコア
assumptions, as well as future research on multi-modal EM. 仮定と将来のマルチモーダルEMの研究。 0.49
• We thoroughly assess the impact of the above three critical assumptions for evaluating entity matcher. • エンティティマッチングを評価する上で,上記の3つの重要な仮定の影響を徹底的に評価する。 0.66
Experimental results show that these assumptions conceal the most critical challenges of entity matching, and therefore significantly overestimate the current progress due to the biased benchmarks. 実験の結果、これらの仮定はエンティティマッチングの最も重要な課題を隠蔽しており、したがってバイアスベンチマークによる現在の進歩を著しく過大評価していることがわかった。
訳抜け防止モード: 実験の結果 これらの仮定は エンティティマッチングの 最も重要な課題を隠蔽しています 偏りのあるベンチマークによる現在の進捗を かなり過大評価しています
0.64
2 Background and New Corpus Construction In this section, we will first demonstrate the construction process of conventional entity matching benchmarks and point out three implicit assumptions made during the process. 2 背景と新たなコーパス構築 この節では、まず従来のエンティティマッチングベンチマークの構築プロセスを実演し、プロセス中に行われた3つの暗黙の仮定を指摘します。 0.64
Then to assess the impacts of the three assumptions, we present a new multi-modal corpus for entity matching. 次に、3つの仮定の影響を評価するために、エンティティマッチングのための新しいマルチモーダルコーパスを提案する。 0.54
Finally, we will briefly introduce the state-of-the-art approaches on entity matching, which will be used to evaluate the impact of the above-mentioned assumptions in the following sections. 最後に, エンティティマッチングにおける最先端のアプローチについて概説し, 上記の仮定の影響を以下の節で評価する。 0.62
2.1 Construction and Implicit Assumptions of 2.1 構成と暗黙の仮定 0.70
Previous Benchmarks Algorithm 1 outlines the construction process of current entity matching benchmarks. 以前のベンチマーク アルゴリズム1は、現在のエンティティマッチングベンチマークの構築プロセスを概説する。 0.57
The procedure commonly first removes non-textual attributes from all records. 手順は、通常、すべてのレコードから非テキスト属性を削除します。 0.61
Then a fixed number of entity clusters are sampled to construct datasets. その後、一定の数のエンティティクラスタをサンプリングしてデータセットを構築する。 0.62
Some record pairs within the same clusters are regarded as the matched entity record pairs, and a number of mismatched pairs are sampled from records from different clusters. 同じクラスタ内のいくつかのレコードペアは一致したエンティティレコードペアと見なされ、異なるクラスタのレコードから多くのミスマッチしたペアがサンプリングされる。 0.71
The number of mismatched instances is commonly proportional to the number of matched instances with a fixed ratio. ミスマッチしたインスタンスの数は通常、一定の比率のマッチしたインスタンスの数に比例する。 0.69
Finally, all record pairs with matched/mismatched labels are split into training/validation/ test sets to build the standard benchmarks. 最後に、マッチ/ミスマッチラベルを持つレコードペアは、標準ベンチマークを構築するためにトレーニング/バリデーション/テストセットに分割される。 0.52
Such a construction process, however, is implicitly incorporated with three assumptions. しかし、そのような構築プロセスは3つの仮定に暗黙的に組み込まれている。 0.60
First, because all records are sampled from the same group of clusters C(cid:48), there is a great chance that clusters and records in the test set would appear in the training set. まず、すべてのレコードが同じクラスタCのグループからサンプリングされるため(cid:48)、テストセット内のクラスタやレコードがトレーニングセットに現れる可能性が高い。
訳抜け防止モード: まず、すべてのレコードが同じクラスタC(cid:48)のグループからサンプリングされるからである。 ) 大きなチャンスがある。 テストセットのクラスタとレコードが トレーニングセットに表示される。
0.79
To show this, Table 1 presents the statistics from several most widely-used EM benchmarks. これを示すために、テーブル1は、最も広く使われているemベンチマークの統計を示す。 0.53
We can see that nearly all entity clusters in the test set of these benchmarks are covered by the training set. これらのベンチマークのテストセットのほとんどすべてのエンティティクラスタが、トレーニングセットによってカバーされています。 0.62
Furthermore, a vast majority of entity records in the test set are also covered by the training set. さらに、テストセットのエンティティレコードの大部分は、トレーニングセットによってカバーされています。 0.64
However, in an open environment this assumption does not hold, because a great number of entity clusters and records are unseen during training. しかし、オープン環境では、多くのエンティティクラスタとレコードがトレーニング中に発見されていないため、この仮定は成立しない。 0.65
Second, due to the mismatched-matched instance sampling strategy, the ratio of mismatched pairs to matched pairs is relatively low, as shown in Table 1 again. 第2に、ミスマッチされたインスタンスサンプリング戦略のため、ミスマッチされたペアとマッチしたペアの比率は、再び表1に示すように比較的低い。 0.52
Further, such ratios are nearly the same for the training and test set. さらに、トレーニングとテストセットでは、そのような比率はほぼ同じです。 0.78
Unfortunately, in real-world applications we will face an extremely high mismatched-matched ratio. 残念ながら、現実世界のアプリケーションでは、非常に高いミスマッチの比率に直面します。 0.54
Even after the blocking of entity resolution, a record may have up to 100 candidate matches. エンティティの解決がブロックされた後も、レコードは最大100の候補マッチを持つ。 0.67
And due to the long-tail phenomenon, it is very frequently that only one instance among them is the matched one. そして、長い尾現象のため、その中の1つの例だけが一致するものであることが非常に多い。 0.70
Consequently, current benchmarks can not well reflect how well entity matchers can deal with such an extremely imbalanced situation. その結果、現在のベンチマークでは、エンティティマーカがこのような極めて不均衡な状況にどのように対処できるかを十分に反映できない。
訳抜け防止モード: その結果 現在のベンチマークでは エンティティマッチングは、このような極めて不均衡な状況に対処することができる。
0.66
Third, many current benchmarks only focus on textual attributes, which multi-modal attributes become increasingly popular and important in many EM scenarios. 第3に、現在のベンチマークではテキスト属性のみに焦点を当てており、多くのemシナリオでマルチモーダル属性がますます人気を増し、重要になっている。 0.47
Due to Algorithm 1: The Common Construction Process of Previous Entity Matching Benchmarks Data: A set of entity clusters C = {c1, c2,··· , cn}, where each cluster ci contains several records ci = {r1 故に アルゴリズム1:以前のエンティティマッチングベンチマークの共通構築プロセス データ: エンティティクラスタ c = {c1, c2,···· , cn} のセット。
訳抜け防止モード: 故に アルゴリズム1 従来のエンティティマッチングベンチマークデータの共通構築プロセス : エンティティクラスタの集合C = c1, c2, · · · ·, cn } ここで、各クラスタ ci はいくつかのレコード ci = { r1
0.71
i ,··· , rm i } i ,··· , rm i } 0.74
Input: train/val/test ratio, mismatched/matched ratio: 入力:列車/車両/テスト比、ミスマッチ/マッチ比 0.54
i , r2 r, k Output: training, validation, and test set: foreach ci ∈ C do 私 R2 r, k 出力:トレーニング、検証、テストセット:foreach ci ∈ C do 0.59
train, val, test i ∈ ci do train, val, test i ∈ ci do 0.42
foreach rj foreach rj 0.43
**Single modality assumption** preserving only textual attributes of record rj i **単一モダリティ仮定**記録rj iのテキスト属性のみを保存する 0.74
end sample a subset of clusters C(cid:48) from C D = Ø foreach ci ∈ C(cid:48) do i ∈ ci do i , rk D ← D ∪ (rj 終端サンプル C(cid:48) を C D = > foreach ci ∈ C(cid:48) do i ∈ ci do i , rk D > D > (rj) から抽出する。 0.86
i , matched) for rj 一致した) RJのために 0.54
i , rk end end 私は... 終わり 終わり 0.61
end **Balanced label assumption** for i ← 1 to k ∗ (cid:107)D(cid:107) do 終端 ** 平衡ラベル仮定** は 1 から k ∗ (cid:107)d(cid:107) do に対して成り立つ。 0.68
sample different cluster records rl D ← D ∪ (rl j , mismatched) サンプルの異なるクラスター記録 rl D > D > (rl j , mismatched) 0.77
i, rm i, rm j 私 rm i, rm j 0.49
end **Restricted entity assumption** train, val, test ← RANDOM SPLIT(D, r) return train, val, test end ** 制限されたエンティティの仮定* train, val, test > RANDOM SPLIT(D, r) return train, val, test 0.87
from C(cid:48) C (複数形 Cs) 0.51
the above reasons, current benchmarks with these implicit assumptions can not well evaluate the performance of the entity matcher in the open environment. 上記の理由から、これらの暗黙の仮定による現在のベンチマークでは、オープン環境でのエンティティマッチングのパフォーマンスを十分に評価できない。 0.60
2.2 New Corpus Construction 2.2 新しいコーパス建設 0.72
In order to assess how these three implicit assumptions influence the evaluations of entity matchers, we construct a new multi-modal corpus based on product information from a Chinese e-commerce website. これら3つの暗黙の仮定がエンティティマーカの評価にどのように影響するかを評価するため、中国eコマースウェブサイトの製品情報に基づく新しいマルチモーダルコーパスを構築した。 0.72
The newly built corpus contains 3 main categories (clothing, shoes, and accessories) of products. 新しく作られたコーパスには、製品の主要なカテゴリー(衣服、靴、アクセサリー)が3つ含まれている。 0.64
Each product record includes a record ID, title, categorical info, cluster ID, attribute pairs (e g , color, style, material, etc.), as well as a product image. 各製品レコードは、製品イメージだけでなく、レコードID、タイトル、カテゴリ情報、クラスタID、属性ペア(例えば、色、スタイル、素材など)を含む。
訳抜け防止モード: 各製品レコードにはレコードid、タイトル、カテゴリ情報が含まれている。 クラスタid、属性ペア(例えば、色、スタイル) 材料等) 製品イメージだけでなく, 製品イメージも含む。
0.72
Entity records with the same cluster ID, which are manually checked, are considered as referring to the same real-world product entity. 手動でチェックされる同じクラスタIDを持つエンティティレコードは、同じ現実世界の製品エンティティを参照していると見なされる。 0.80
Finally, there are 10,000 products and 126,277 records in this corpus. 最後に、このコーパスには10,000の製品と126,277のレコードがある。 0.54
Each product has records between 10 and 20. 各製品には10から20のレコードがある。 0.75
From the corpus, we use the clusters from all categories and three specific categories to build the datasets. コーパスから、すべてのカテゴリと3つの特定のカテゴリのクラスタを使用してデータセットを構築します。 0.71
For each dataset, we randomly sample 250 clusters to build the training set and hold out 100 clusters for the unseen cluster benchmark. 各データセットについて、250のクラスタをランダムにサンプリングしてトレーニングセットを構築し、未公開のクラスタベンチマークのために100のクラスタを保持します。
訳抜け防止モード: データセットごとに250のクラスタをランダムにサンプリングし 未公開のクラスタベンチマークのために、トレーニングセットを構築し、100クラスタを保持する。
0.67
For each cluster in the training set, we also hold out 40% of the records as unseen records. トレーニングセットの各クラスタに対して、記録の40%を未確認レコードとして保持しています。 0.74
英語(論文から抽出)日本語訳スコア
All DMatcher すべて DMatcher 0.58
Ditto Cloth. DMatcher ディットー 衣服。 DMatcher 0.37
Ditto Shoes DMatcher ディットー シューズdmatcher 0.51
Ditto Acc. ディットー acc。 0.31
DMatcher Ditto DMatcher ディットー 0.37
Vanilla 78.48 93.06 77.62 89.75 75.44 84.93 81.47 91.41 Vanilla 78.48 93.06 77.62 89.75 75.44 84.93 81.47 91.41 0.23
RL 70.20 88.27 69.02 82.84 69.09 82.08 70.73 84.93 RL 70.20 88.27 69.02 82.84 69.09 82.08 70.73 84.93 0.23
CFM OM 53.09 65.18 84.02 67.82 57.40 63.43 70.54 80.20 54.49 63.60 76.57 62.21 50.67 63.16 81.23 61.19 CFM OM 53.09 65.18 84.02 67.82 57.40 63.43 70.54 80.20 54.49 63.60 76.57 62.21 50.67 63.16 81.23 61.19 0.22
Table 2: F1 scores on 4 benchmarks. 表2: F1は4つのベンチマークで得点します。 0.54
We can see that unseen clusters and records can significantly reduce the performance of entity matchers. 目に見えないクラスタとレコードは、エンティティマッチングのパフォーマンスを著しく低下させる可能性がある。 0.63
entities from multiple sources. 複数のソースからのエンティティ。 0.67
Under this scenario, all entity clusters in the test set are observed during training, but all records in the test benchmark are new and unseen. このシナリオでは、テストセット内のすべてのエンティティクラスタはトレーニング中に観察されるが、テストベンチマークのすべてのレコードは新しくて見当たらない。 0.72
• Record Linking (RL), which tries to link a newlyobtained record to other records in the database. • Record Linking (RL) データベース内の他のレコードに、新たに取得したレコードをリンクしようとする。 0.88
Under this scenario, we can use all entity clusters in the database for training, and there is no new cluster in the test set. このシナリオでは、データベース内のすべてのエンティティクラスタをトレーニングに使用することが可能で、テストセットに新しいクラスタはありません。 0.84
However, for each record pair to classify, only one record in it has appeared in the training set, and another record is new. しかし、各レコードペアを分類するために、トレーニングセットに1つのレコードしか現れておらず、別のレコードが新しくなっています。 0.70
This is a very common scenario for entity matching applications, e g , linking a new product record to the constructed commodity library. これはエンティティマッチングアプリケーションにとって非常に一般的なシナリオであり、例えば、新しい製品レコードを構築済みのコモディティライブラリにリンクする。 0.75
Apart from the above three benchmarks, we also build a vanilla benchmark for comparison, which follows the construction criteria of the WDC benchmarks [Primpeli et al , 2019]. 上記の3つのベンチマークとは別に、wdcベンチマーク(primpeli et al , 2019)の構成基準に従う比較用のバニラベンチマークも構築しています。 0.61
Figure 2 illustrates how we build these benchmarks upon our constructed corpus. 図2は、構築したコーパスでこれらのベンチマークを構築する方法を示しています。 0.45
All these 4 benchmarks share the same training and validation sets. これら4つのベンチマークは同じトレーニングと検証セットを共有している。 0.55
For the test benchmark of OM, we apply the same record pair generation procedure as Algorithm 1 on the hold-out clusters to generate matched and mismatched record pairs. OMのテストベンチマークでは、アルゴリズム1と同じレコードペア生成手順をホールドアウトクラスタに適用し、マッチしたレコードペアとミスマッチしたレコードペアを生成する。 0.67
For CFM, we use the hold-out records from the training set to build the test benchmark. CFMでは、トレーニングセットからのホールドアウトレコードを使用してテストベンチマークを構築します。 0.66
For RL, we first sample a record from the hold-out records and then sample a matched or mismatched record to it from the training set. RLの場合、まずホールドアウトレコードからレコードをサンプリングし、トレーニングセットからマッチしたレコードまたはミスマッチしたレコードをサンプリングします。 0.75
We set the default matched-mismatched ratio on training and test sets to 1:3 like the WDC2. トレーニングとテストセットのデフォルトのマッチミスマッチ比率をwdc2のように1:3に設定した。 0.62
However, in experiments, we also vary the matched-mismatched ratio of the benchmarks to investigate how the balanced label assumption influences EM performance. しかし,実験では,ベンチマークの一致ミスマッチ比も変化し,ラベルのバランスがEM性能に与える影響について検討する。 0.76
Besides, following the same criteria, we also build these 4 benchmarks for each category. さらに、同じ基準に従って、これらの4つのベンチマークをカテゴリ毎に構築しています。 0.58
4 Experiments and Findings 4.1 Restricted Entity Assumption Findings 1. 4 実験と発見 4.1 制限されたエンティティの消費調査。 0.66
Restricted entity assumption biases the nature of entity matching, which changes the task from learning an effective matcher to learning effective representations of seen clusters/records. 制限されたエンティティ仮定は、エンティティマッチングの性質に偏り、効果的なマッチングの学習から、見たクラスタ/レコードの効果的な表現の学習へとタスクが変化する。 0.53
To demonstrate this, we compared the performance of the SOTA entity matchers on 4 newly constructed benchmarks. これを実証するために,新たに構築した4つのベンチマークにおいて,sotaエンティティマッチングの性能を比較した。 0.51
Table 2 shows the results. 表2は結果を示しています。 0.65
We can find that on the vanilla バニラでそれを見つけることができます 0.56
2webdatacommons.org/ largescaleproductcor pus/v2/#toc4.2 2webdatacommons.org/ largescaleproductcor pus/v2/#toc4.2 0.15
Figure 2: Four kinds of benchmarks we constructed: 図2:私たちが構築した4種類のベンチマーク 0.68
a) Open Matching, which contains records all from unseen clusters; a) 未発見のクラスタからのすべてのレコードを含むオープンマッチング 0.80
b) Clusterfocused Matching, which contains unseen records all from seen clusters; b) クラスタ中心のマッチングは,目に見えないすべてのクラスタから収集した記録を含む。 0.59
c) Record Linking, which contains one seen record and one unseen record from seen clusters; c) 参照された1つの記録と、参照されたクラスタからの見えない1つの記録を含むレコードリンク
訳抜け防止モード: c) 記録リンク 1つの観測記録と1つの観測記録が含まれています
0.76
d) Vanilla setup, which contains records that are all seen during training. d) バニラ設定は、トレーニング中にすべて見られる記録を含む。 0.66
2.3 Baselines In this paper, we mainly focus on exploring the impact of the three above problems on deep learning-based approaches while leaving others for future work. 2.3のベースラインについて,本稿では,上記の3つの問題の深層学習に基づくアプローチへの影響を主に検討し,その影響について考察する。 0.66
We choose two representative methods as baselines in our experiments: 実験では,2つの代表的な手法をベースラインとして選択する。 0.55
• Deepmatcher (DMatcher), which is the first detailed exploration of deep learning methods on EM [Mudgal et al., 2018]. •Deepmatcher(DMatcher )は,EM(Mudgal et al., 2018)上でのディープラーニング手法の詳細な調査である。
訳抜け防止モード: •Deepmatcher(DMatcher ) EM(Mudgal et al , 2018)上でのディープラーニング手法の詳細な調査は, 初めてである。
0.74
We use their open source code directly. 私たちは彼らのオープンソースコードを直接使います。 0.62
• Ditto, which is the SOTA EM method based on pretrained language models [Li et al , 2020]. • Dittoは事前訓練された言語モデルに基づくSOTA EM法である[Li et al , 2020]。 0.78
We reproduce and obtain comparable results on existing benchmarks. 我々は既存のベンチマークで同等の結果を再現し得る。 0.43
3 Benchmark Reconstruction for EM Applications of entity matching in the open environment are highly diversified and complicated. 3 オープン環境におけるエンティティマッチングのアプリケーションに対するベンチマーク再構成は,高度に多様化し複雑である。 0.63
So it is difficult to build one benchmark for all downstream EM applications. したがって、下流のEMアプリケーションすべてに対して1つのベンチマークを構築するのは難しい。 0.48
To this end, this paper investigates the three most representative applications of entity matching and evaluates how well the current SOTA approaches can accomplish these applications. そこで本研究では,エンティティマッチングの3つの代表的応用について検討し,現在のSOTAアプローチがそれらの応用にどの程度有効であるかを評価する。 0.58
Specifically, we build benchmarks for the following three kinds of typical downstream paradigms of entity matching: 具体的には、エンティティマッチングの典型的な3種類のダウンストリームパラダイムのベンチマークを構築します。 0.54
• Open Matching (OM), which tries to identify whether two open records refer to the same entity clusters, and there is no specific restriction for the entity clusters. • open matching (om)は、2つのオープンレコードが同じエンティティクラスタを参照しているかどうかを識別しようとするもので、エンティティクラスタに特別な制限はない。 0.79
This paradigm corresponds to the scenarios where we want to leverage the learned entity matcher as a universal tool for merging or deduplicating (e g , combining two databases, deduplicating a new table, etc.). このパラダイムは、学習したエンティティマーカを統合や重複(例えば、2つのデータベースの組み合わせ、新しいテーブルの重複など)の普遍的なツールとして利用したいシナリオに対応しています。 0.80
As a result, the clusters and records in the test benchmark are commonly unknown during training under this scenario. 結果として、テストベンチマークのクラスタとレコードは、このシナリオでのトレーニング中によく知られていない。 0.62
• Cluster-focused Matching (CFM), which tries to identify whether two records belonging to specific seen clusters are matched. • クラスタ中心マッチング(CFM)は、特定のクラスタに属する2つのレコードが一致しているかどうかを識別する。 0.76
This paradigm corresponds to the scenarios where we try to sort the mined records about a group of products or merge information about specific このパラダイムは、製品群に関するマイニングされたレコードをソートしたり、特定の情報をマージしようとするシナリオに対応します。 0.66
●: Seen Records□: Hold-out RecordsOpen Matching(✧,◇)(◇,◇)(◇,✧)(✧,✧)Cluster-focused Matching(○,□)(□,□)(□,○)(□,△)Record Linking(●,□)(□,■)(○,▲)(□,▲)Vanilla(●,■)(■,■)(■,▲)(●,▲)◇: Hold-out Clusters hold-out records open matching(\,\,\,\,\,\ ,\,\,\,\,\)cluster-f ocus matching(○,\,\,\,\,\,\,\,\,\,\ ,\,\,\,\,\,\,\,\,\,\ ,\,\,\,\,\,\,\,\,\,\ ,\,\,\,\,\,\,\,\,\) クラスタ・フォーカス・マッチング(○,\,\,\,\,\,\): hold-out clusters 0.18
(a) DatasetSplits (a) DatasetSplits 0.42
(b) Benchmarksfordiffere ntscenarios●●●●○■■□■▲▲△▲▲✧✧✧✧✧◇◇◇◇ (b)ベンチマーク 0.56
英語(論文から抽出)日本語訳スコア
All DMatcher すべて DMatcher 0.58
Ditto Cloth. DMatcher ディットー 衣服。 DMatcher 0.37
Ditto Shoes DMatcher ディットー シューズdmatcher 0.51
Ditto Acc. ディットー acc。 0.31
DMatcher Ditto DMatcher ディットー 0.37
Vanilla 16.43 38.52 15.70 33.39 13.91 24.53 16.85 30.44 Vanilla 16.43 38.52 15.70 33.39 13.91 24.53 16.85 30.44 0.23
RL 13.33 32.71 11.65 27.15 10.77 21.90 13.89 25.24 RL 13.33 32.71 11.65 27.15 10.77 21.90 13.89 25.24 0.23
CFM OM 6.98 11.93 28.55 14.52 8.02 10.11 18.15 24.86 6.31 9.59 20.39 10.11 6.84 11.86 23.18 10.58 CFM OM 6.98 11.93 28.55 14.52 8.02 10.11 18.15 24.86 6.31 9.59 20.39 10.11 6.84 11.86 23.18 10.58 0.22
Table 3: F1 scores on 4 benchmarks with mismatched/matched ratio = 100. 表3: F1は、ミスマッチ/マッチング比=100の4つのベンチマークでスコアします。 0.57
We find that the performance dramatically dropped on imbalanced benchmarks compared with balanced benchmarks in Table 2. 表2のバランスのとれたベンチマークと比較すると、不均衡なベンチマークのパフォーマンスは劇的に低下した。 0.54
benchmark, these methods can achieve competitive performance of nearly 90% F1 scores, which is similar to that on previous benchmarks. ベンチマークでは、これらの手法は90%近いF1スコアの競合的なパフォーマンスを達成することができる。 0.70
Unfortunately, the performance dramatically dropped when the restricted entity assumption was removed. 残念ながら、制限されたエンティティの仮定が削除されたため、パフォーマンスは劇的に低下した。 0.48
We find that the model performance dropped most significantly in the realistic Open Matching scenario – nearly 30% of F1 scores. モデルのパフォーマンスは、現実的なOpen Matchingシナリオにおいて、F1スコアの30%近くで大幅に低下しました。 0.72
Meanwhile, the performance also have a significant drop in Record Linking and Cluster-focused Matching, even most clusters or records in these two settings have been observed during training. 一方で、この2つの設定のほとんどのクラスタやレコードでも、トレーニング中に記録リンクとクラスタ中心のマッチングが大幅に低下している。 0.67
This verifies that previous benchmarks incorporated with restricted entity assumption significantly overestimate the performance. これは、制限されたエンティティ仮定に組み込まれた以前のベンチマークがパフォーマンスをかなり過大評価していることを検証する。 0.41
Furthermore, we find that the more information about seen records or clusters in benchmarks, the better the performance of the models. さらに、ベンチマーク中のレコードやクラスタに関する情報が多ければ多いほど、モデルの性能が向上することがわかった。
訳抜け防止モード: さらに私たちは ベンチマーク中のレコードやクラスタに関する情報が多ければ多いほど、モデルの性能が向上します。
0.75
This shows that current models, trained on standard benchmarks, do not learn sufficient information to build a universal matcher. これは、標準ベンチマークでトレーニングされた現在のモデルでは、ユニバーサルマッチングを構築するのに十分な情報を学べないことを示している。 0.50
Instead, they pay more attention to learning sufficient representations of seen clusters and records. 代わりに、クラスタやレコードの十分な表現を学ぶことにもっと注意を払う。 0.63
However, in order for the entity matcher can be used in a broader range of scenarios, we hope that the learned entity matcher can be generalized to unseen clusters and records. しかし, より広い範囲のシナリオでエンティティマッチングが使用可能となるためには, 学習したエンティティマッチングがクラスタやレコードに一般化できることを期待する。 0.73
As a result, only focusing on learning representations of seen clusters or records is not sufficient for EM in an open environment. その結果,クラスタやレコードの学習表現のみに注目することは,オープン環境におけるEMには不十分である。 0.83
In general, previous benchmarks mainly evaluate the ability to learn on seen records or clusters but cannot reflect the ability of generalized entity matching in the open environment. 一般に、以前のベンチマークは、主に、見たレコードやクラスタで学習する能力を評価するが、オープン環境での一般化されたエンティティマッチングの能力を反映することができない。
訳抜け防止モード: 一般に、以前のベンチマークは、主に見た記録やクラスタで学習する能力を評価する。 しかし オープン環境における 汎用エンティティマッチングの能力は 反映できない。
0.62
Therefore, there is a discrepancy between previous benchmarks and the real-world entity matching applications. したがって、以前のベンチマークと実世界のエンティティマッチングアプリケーションには相違点がある。 0.63
4.2 Balanced Label Assumption Findings 2. 4.2 バランスラベル推定値 2。 0.78
Balanced label assumption conceals the most critical challenge of entity matching. バランスの取れたラベルの仮定は、エンティティマッチングの最も重要な課題を隠蔽する。 0.49
To show this, we investigated the performance of the baselines on 4 newly constructed benchmarks and varied the ratio of matched record pairs to mismatched record pairs gradually from 1:3 to 1:100. そこで本研究では,新たに構築した4つのベンチマークのベースラインの性能について検討し,一致したレコード対と一致したレコード対の比率を1:3から1:100へと徐々に変化させた。 0.64
Note that 1:100 is a reasonable matchedmismatched ratio in real-world entity matching applications, because the entity resolution system may keep more than 100 candidates for a record at the blocking step to ensure recall [Thirumuruganathan et al , 2021]. 1:100は実世界のエンティティマッチングアプリケーションにおいて合理的に一致した比率であり、エンティティ解決システムは100以上の候補をブロッキングステップで保持してリコールを保証する(Thirumuruganathan et al , 2021]。 0.76
And due to the longtail phenomenon, it is very frequently that only one instance among them is the matched pair. そして、ロングテール現象のため、その中の1つの例が一致するペアであることが多い。 0.69
So a matched-mismatched ratio of 1:100 corresponds to real-world EM applications. したがって、1:100のマッチングミスマッチ比は実世界のEMアプリケーションに対応する。 0.55
Table 3 shows the results. 表3は結果を示しています。 0.64
We can see that even on the 私たちはそれを見ることができます。 0.57
Figure 3: F1 scores on 4 benchmarks w.r.t. different ratios of mismatched-matched ratio on test set. 図3: F1は4つのベンチマークで、テストセットにおけるミスマッチマッチング比率の異なる比率でスコアします。 0.60
Figure 4: F1 scores on 4 categories w.r.t. mismatched-matched ratio on both training and test sets. 図4: F1は、トレーニングとテストセットの両方で、ミスマッチ比率の4つのカテゴリでスコアします。 0.69
different ratios of vanilla benchmark, the F1 score dropped dramatically on the imbalanced scenario, compared to the results on the balanced scenario in Table 2. 異なる比率で バニラベンチマークでは、テーブル2のバランスシナリオの結果と比較して、不均衡シナリオではf1スコアが劇的に低下した。 0.72
More importantly, the performance becomes even worse in other three benchmarks. さらに重要なのは、他の3つのベンチマークでパフォーマンスがさらに悪化することです。 0.57
On the open matching benchmark, the performance of state-of-the-art systems is even as low as 14.52%. オープンマッチングベンチマークでは、最先端システムの性能は14.52%以下である。 0.54
This shows the significant impact of imbalanced labels on entity matching. これは、エンティティマッチングに対する不均衡ラベルの影響を示している。 0.64
In order to take a closer look at the challenges posed by imbalanced labels, we dynamically varied the mismatchedmatched ratio on test benchmark. ラベルの不均衡によって生じる課題を詳細に検討するために,テストベンチマークにおけるミスマッチされた比率を動的に変化させた。 0.62
Figure 3 shows the results. 図3は結果を示しています。 0.67
We can see that the performance on all benchmarks steadily dropped when the mismatched-matched ratio increased on the test benchmark. テストベンチマークのミスマッチ比率が増加すると,すべてのベンチマークのパフォーマンスが着実に低下することがわかった。 0.66
Furthermore, we find that this problem can not be solved by merely adjusting the mismatched-matched ratio on the training set, as shown in Figure 4. さらに、この問題は、図4に示すように、単にトレーニングセットのミスマッチされた比率を調整するだけでは解決できない。 0.76
We believe that this is because the imbalanced training set will pose a great challenge for model learning. これは、不均衡なトレーニングセットがモデル学習に大きな課題をもたらすためだと思います。 0.76
As a result, how to deal with the extremely imbalanced labels in the open environment is one of the most critical challenges for entity matching. その結果、オープン環境における極端に不均衡なラベルを扱う方法が、エンティティマッチングにおける最も重要な課題の1つである。 0.72
Unfortunately, previous benchmarks conceal this challenge because they introduced the balanced label assumption when generating mismatched instances. 残念ながら、以前のベンチマークでは、ミスマッチしたインスタンスを生成する際にバランスのとれたラベルの仮定を導入したため、この課題を隠蔽している。 0.36
Consequently, previous benchmarks can not well represent the real-world performance of entity matchers in an open environment. したがって、これまでのベンチマークでは、オープン環境でのエンティティマッチングの実世界のパフォーマンスを適切に表現できない。 0.50
4.3 Single Modality Assumption Findings 3. 4.3 単一モダリティ推定 3。 0.77
Single modality assumption stems from the underestimation of the importance of multi-modality on previous benchmarks. 単一モダリティの仮定は、以前のベンチマークにおけるマルチモダリティの重要性の過小評価に由来する。 0.55
To show this, we conducted experiments on newly constructed benchmarks with multi-modal records. そこで我々は,マルチモーダルレコードを用いた新しいベンチマーク実験を行った。 0.72
Because cur- 02040608010002040608 0100F1 score (%)Mismatched/Matche d RatioVanillaRLCFMOM0 20406080100020406080 100F1 score (%)Mismatched/Matche d RatioAllCloth.ShoesA cc. カーだから。 02040608080406080100 f1 スコア (%) ミスマッチ/マッチ比vanillarlcfmom020406 080808040606080100f1 スコア (%)ミスマッチ/マッチ比allcloth.shoesacc 0.38
英語(論文から抽出)日本語訳スコア
Vanilla RL CFM OM バニラ RL CFM OM 0.45
Multi-modal Textual Visual マルチモーダル テキストビジュアル 0.68
Textual Visual Multi-modal テキストビジュアル マルチモーダル 0.68
Balanced (Matched:Mismatched = 1:3) 84.02 88.13 91.11 80.20 88.12 90.18 76.57 79.79 85.29 81.23 83.59 86.98 Balanced (Matched:Mismatched = 1:3) 84.02 88.13 91.11 80.20 88.12 90.18 76.57 79.79 85.29 81.23 83.59 86.98 0.26
93.06 95.42 96.89 89.75 95.87 96.90 84.93 89.50 91.82 91.41 92.64 94.96 93.06 95.42 96.89 89.75 95.87 96.90 84.93 89.50 91.82 91.41 92.64 94.96 0.21
88.27 91.50 93.66 82.84 92.08 93.40 82.08 83.82 87.13 84.93 88.48 91.26 88.27 91.50 93.66 82.84 92.08 93.40 82.08 83.82 87.13 84.93 88.48 91.26 0.21
Textual Visual Multi-modal テキストビジュアル マルチモーダル 0.68
Textual Visual Multi-modal テキストビジュアル マルチモーダル 0.68
Imbalanced (Matched:Mismatched = 1:100) 不均衡(マッチ:ミスマッチ=1:100) 0.73
Textual Visual Multi-modal テキストビジュアル マルチモーダル 0.68
Textual Visual Multi-modal テキストビジュアル マルチモーダル 0.68
Textual Visual Multi-modal テキストビジュアル マルチモーダル 0.68
Textual Visual Multi-modal テキストビジュアル マルチモーダル 0.68
38.52 65.82 76.72 33.39 65.10 73.16 24.53 38.52 46.95 30.44 46.54 49.02 38.52 65.82 76.72 33.39 65.10 73.16 24.53 38.52 46.95 30.44 46.54 49.02 0.21
32.71 55.92 64.67 27.15 54.93 62.37 21.90 29.25 35.88 25.24 38.85 41.24 32.71 55.92 64.67 27.15 54.93 62.37 21.90 29.25 35.88 25.24 38.85 41.24 0.21
28.55 50.29 60.06 24.86 49.64 58.38 20.39 24.15 30.07 23.18 33.36 36.03 28.55 50.29 60.06 24.86 49.64 58.38 20.39 24.15 30.07 23.18 33.36 36.03 0.21
All Cloth. Shoes Acc. すべて 衣服。 靴 acc。 0.55
All Cloth. Shoes Acc. すべて 衣服。 靴 acc。 0.55
67.82 74.14 78.45 70.54 78.12 80.56 62.21 64.90 72.02 61.19 65.12 68.29 67.82 74.14 78.45 70.54 78.12 80.56 62.21 64.90 72.02 61.19 65.12 68.29 0.21
14.52 30.93 30.39 18.15 29.83 30.86 10.11 12.09 14.61 10.58 14.93 14.37 14.52 30.93 30.39 18.15 29.83 30.86 10.11 12.09 14.61 10.58 14.93 14.37 0.21
Table 4: Experimental results on multi-modal EM. 表4:マルチモーダルEMの実験結果。 0.68
We can see that introducing the visual attribute can significantly boost the performance on open clusters and imbalanced settings. visual属性の導入によって、オープンクラスタと不均衡設定のパフォーマンスが大幅に向上することが分かる。 0.73
rently there is little previous work focused on multi-modal entity matching, we build a simple baseline for visual and multimodal EM. レンタル マルチモーダルエンティティマッチングにフォーカスした以前の作業はほとんどなく、ビジュアルおよびマルチモーダルemのためのシンプルなベースラインを構築します。 0.68
Specifically, we use Vision Transformer [Dosovitskiy et al , 2021] as the image encoder and apply a multilayer perceptron on the representations of images of two records to obtain a visual matching representation. 具体的には、画像エンコーダとしてVision Transformer [Dosovitskiy et al , 2021]を使用し、2つのレコードの画像表現に多層パーセプトロンを適用し、視覚的マッチング表現を得る。 0.80
Then for the singlemodal visual baseline, we direct send the visual matching representation into a classifier to determine the match result. 次に、シングルモーダルの視覚的ベースラインに対して、視覚マッチング表現を分類器に送ってマッチ結果を決定する。 0.72
For the multi-modal approach, we use a gated mechanism to fuse this visual matching representation with the text matching representation and then send it to a classifier. マルチモーダルアプローチでは、ゲート機構を使用して、この視覚的マッチング表現をテキストマッチング表現と融合させ、それを分類器に送信する。 0.72
Table 4 shows the results. 表4は結果を示しています。 0.64
We can find that the importance of visual attributes can be underestimated based on the performance of the vanilla benchmarks. バニラベンチマークのパフォーマンスに基づいて、視覚的属性の重要性を過小評価できることが分かる。 0.71
In balanced vanilla benchmarks, the improvement of introducing visual information is not very significant, which is consistent with the phenomenon from previous benchmarks [Wilke and Rahm, 2021]. バランスの取れたバニラベンチマークでは、視覚情報の導入の改善はあまり重要ではなく、以前のベンチマーク(WilkeとRahm, 2021)の現象と一致する。 0.66
However, when we refer to the results on open environment benchmarks, the improvement of incorporating visual information is very significant: there are more than 7 points of F1 score gains on CFM and more than 11 points of F1 score gains on OM. しかし, オープン環境ベンチマークの結果を参考にすると, cfmではf1スコアが7点以上, omではf1スコアが11点以上, 視覚情報を取り込むことが極めて重要である。
訳抜け防止モード: しかし、オープン環境ベンチマークの結果を参照すると、 視覚情報の導入改善は非常に重要である : CFMでは7ポイント以上のF1スコアゲインがある また、F1スコアの11ポイント以上はOMで上昇した。
0.74
Furthermore, the multi-modal model achieves more than 40% of F1 scores improvements under the imbalanced benchmarks for some categories and can be better generalized さらに、マルチモーダルモデルは、いくつかのカテゴリで不均衡なベンチマークの下でF1スコアの改善の40%以上を達成し、より一般化することができる。
訳抜け防止モード: さらに、マルチモーダルモデルは、いくつかのカテゴリのアンバランスなベンチマークの下でF1スコアの改善の40%以上を達成する。 より一般化され
0.64
to unseen clusters and records. 不可視のクラスターと記録に 0.63
All these results demonstrate that multi-modal information can significantly benefit entity matching in the open environment. これらの結果から,マルチモーダル情報はオープン環境におけるエンティティマッチングに大きな利益をもたらすことが示された。
訳抜け防止モード: これらの結果は マルチ - モーダル情報はオープン環境におけるエンティティマッチングに大きな利益をもたらす。
0.68
5 Related Work EM Approaches. 5 関連作業 EM アプローチ。 0.69
Entity matching (EM) aims to identify whether two entity records refer to the same real-world entity, which is the most critical step of entity resolution [Christophides et al , 2021]. エンティティマッチング(EM)は、2つのエンティティレコードが同じ現実世界のエンティティを指すかどうかを識別することを目的としており、これはエンティティ解決の最も重要なステップである[Christophides et al , 2021]。 0.65
This study dates back to [Fellegi and Sunter, 1969] and has attached great attention. この研究は[Fellegi and Sunter, 1969]にさかのぼり、大きな注目を集めた。 0.72
To solve this open problem, various approaches have been proposed, e g , distance-based, rule-based, declarative, and probabilistic methods [Papadakis et al , 2021]. このオープンな問題を解決するため、距離ベース、ルールベース、宣言的、確率的手法など様々なアプローチが提案されている[Papadakis et al , 2021]。 0.74
In recent years, deep learning has been introduced to this field and achieved promising results [Thirumuruganathan et al , 2018; Mudgal et al , 2018; Nie et al , 2019; Fu et al , 2020; Li et al , 2020]. 近年、ディープラーニングがこの分野に導入され、有望な成果(Thirumuruganathan et al , 2018; Mudgal et al , 2018; Nie et al , 2019; Fu et al , 2020; Li et al , 2020)を達成した。 0.77
EM Benchmarks. In the early development of EM, many datasets are used to construct benchmarks to evaluate EM methods [Primpeli and Bizer, 2020]. EMベンチマーク。 EMの初期開発では,EM手法を評価するためのベンチマークを構築するために多くのデータセットが使用されている[Primpeli and Bizer, 2020]。
訳抜け防止モード: EMベンチマーク。 EMの初期開発において、多くのデータセットが使用される EMメソッドを評価するためのベンチマークを構築する[Primpeli and Bizer, 2020 ]。
0.72
There has been an effort on building large-scale datasets for deep learning methods [Primpeli et al , 2019]. ディープラーニング手法のための大規模なデータセットを構築する作業が[primpeli et al , 2019]行われている。 0.65
There have also been some attempts on extending the EM task to broader scenarios by extending the data schema, record formats, and relationships between records [Jim´enez-Ruiz et al , 2020; Wang et al , 2021]. データスキーマ、レコードフォーマット、レコード間の関係を拡張することで、emタスクをより広いシナリオに拡張する試みもいくつかある(jim ́enez-ruiz et al , 2020; wang et al , 2021]。 0.77
Unfortunately, as we mentioned above, all these benchmarks are built on three erroneous assumptions, which lead to a significant gap between the benchmarks and EM in the open environment. 残念なことに、前述のように、これらのベンチマークはすべて3つの誤った仮定に基づいて構築されています。
訳抜け防止モード: 残念ながら、上記のように、これらのベンチマークはすべて3つの誤った仮定に基づいている。 オープン環境では、ベンチマークとemの間に大きなギャップが生じます。
0.48
There is also some literature discussing multi-modal entity matching [Christophides et al , 2021; Wilke and Rahm, 2021]. マルチモーダルな実体マッチング(Christophides et al , 2021; Wilke and Rahm, 2021)について議論する文献もある。 0.74
However, due to the benchmark limitation, the importance and effectiveness of multi-modal attributes to EM were hindered and inaccurately evaluated. しかし、ベンチマークの限界により、EMに対するマルチモーダル属性の重要性と有効性は妨げられ、不正確な評価がなされた。 0.49
6 Conclusions In this paper, we highlight that the gap between reality and ideality of entity matching stems from the erroneous implicit assumptions introduced during the benchmark construction process. 6の結論として,エンティティマッチングの現実性と理想性とのギャップは,ベンチマーク構築プロセス中に導入された誤った暗黙の仮定に起因することを強調する。 0.68
These assumptions are inconsistent with the nature of entity matching and therefore lead to biased evaluations of current EM approaches. これらの仮定はエンティティマッチングの性質と矛盾するため、現在のemアプローチのバイアス評価につながる。 0.66
To this end, we build a new EM corpus and re-construct EM benchmarks. この目的のために、新しいEMコーパスを構築し、EMベンチマークを再構築する。 0.52
By step-wisely changing the restricted entities, balanced labels, and singlemodal records in previous benchmarks into open entities, imbalanced labels, and multi-modal records in an open environment, we find that current state-of-the-art approaches suffer severely from unseen clusters, imbalanced labels. 従来のベンチマークで制限されたエンティティ、バランスの取れたラベル、シングルモーダルレコードを、オープン環境でオープンエンティティ、不バランスなラベル、マルチモーダルレコードに段階的に変更することで、現在の最先端のアプローチが、目に見えないクラスタや不均衡なラベルに苦しむことを発見した。 0.52
Furthermore, previous benchmarks also underestimated the impact of multi-modal attributes on entity matching. さらに、以前のベンチマークでは、エンティティマッチングに対するマルチモーダル属性の影響を過小評価していた。 0.41
Our findings reveal that previous benchmarks biased the evaluation of the progress of current entity matching approaches, and there is still a long way to go to build effective entity matchers. その結果、これまでのベンチマークでは、現在のエンティティマッチングアプローチの進捗評価が偏っており、効果的なエンティティマッチングを構築するにはまだまだ長い道のりがあることがわかった。 0.60
Acknowledgments This work was supported by the National Key Research and Development Program of China (No. 2020AAA0106400), and the National Natural Science Foundation of China under Grants no. 62122077, 62106251, 62076233. この研究は中国国家鍵研究開発プログラム(No. 2020AAA0106400)と、Grants No. 62122077, 62106251, 62076233の下で中国国家自然科学財団によって支援された。 0.80
英語(論文から抽出)日本語訳スコア
References [Christophides et al , 2021] Vassilis Christophides, Vasilis Efthymiou, Themis Palpanas, George Papadakis, and Kostas Stefanidis. 参考文献 [christophides et al , 2021] vassilis christophides, vasilis efthymiou, themis palpanas, george papadakis, kostas stefanidis
訳抜け防止モード: 参照 [christophides et al, 2021 ] vassilis christophides, vasilis efthymiou, テミス・パルパナス、ジョージ・パパダキス、コスタス・ステファニディス。
0.56
An overview of end-to-end entity resolution for big data. ビッグデータのためのエンドツーエンドエンティティ解決の概要。 0.65
ACM Comput. Surv. 略称はacm。 サーヴ。 0.47
, 53(6):127:1– 127:42, 2021. , 53(6):127:1– 127:42, 2021. 0.38
[Dosovitskiy et al , 2021] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. [dosovitskiy et al , 2021] alexey dosovitskiy, lucas beyer, alexander kolesnikov, dirk weissenborn, xiaohua zhai, thomas unterthiner, mostafa dehghani, matthias mindererer, georg heigold, sylvain gelly, jakob uszkoreit, neil houlsby。
訳抜け防止モード: [Dosovitskiy et al, 2021 ]Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly Jakob UszkoreitとNeil Houlsby。
0.38
An image is worth 16x16 words: TransIn 9th Interformers for image recognition at scale. TransIn 9th Interformerは、大規模な画像認識のためのインターフォーマーです。 0.59
national Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. 学習表現に関する国際会議, ICLR 2021, Virtual Event, Austria, May 3- 7, 2021 0.83
OpenReview.net, 2021. OpenReview.net、2021年。 0.61
[Fellegi and Sunter, 1969] Ivan P. Fellegi and Alan B. Sunter. [fellegi and sunter, 1969] ivan p. fellegiとalan b. sunter。 0.40
A theory for record linkage. 記録的連鎖の理論です 0.67
Journal of the American Statistical Association, 64(328):1183–1210, dec 1969. アメリカ統計学会誌、64(328):1183-1210、1969年12月。 0.74
[Fu et al , 2020] Cheng Fu, Xianpei Han, Jiaming He, and Le Sun. [Fu et al , 2020]Cheng Fu, Xianpei Han, Jiaming He, Le Sun。 0.37
Hierarchical matching network for heterogeneous entity resolution. 不均一実体分解のための階層的マッチングネットワーク 0.65
In Christian Bessiere, editor, Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, IJCAI 2020, pages 3665–3671. 第29回人工知能国際合同会議(ijcai 2020, pages 3665-3671)の編集者、クリスチャン・ベッシーア(christian bessiere)による解説。 0.58
ijcai.org, 2020. Ijcai.org 2020年 0.84
[Jim´enez-Ruiz et al , 2020] Ernesto Jim´enez-Ruiz, Oktie Hassanzadeh, Vasilis Efthymiou, Jiaoyan Chen, and Kavitha Srinivas. Jim ́enez-Ruiz et al , 2020) Ernesto Jim ́enez-Ruiz, Oktie Hassanzadeh, Vasilis Efthymiou, Jiaoyan Chen, Kavitha Srinivas. 0.45
Semtab 2019: Resources to benchmark tabular data to knowledge graph matching systems. Semtab 2019: グラフデータを知識グラフマッチングシステムにベンチマークするリソース。 0.81
In Andreas Harth, Sabrina Kirrane, Axel-Cyrille Ngonga Ngomo, Heiko Paulheim, Anisa Rula, Anna Lisa Gentile, Peter Haase, and Michael Cochez, editors, The Semantic Web - 17th International Conference, ESWC 2020, Heraklion, Crete, Greece, May 31-June 4, 2020, Proceedings, volume 12123 of Lecture Notes in Computer Science, pages 514–530. andreas harth, sabrina kirrane, axel-cyrille ngonga ngomo, heiko paulheim, anisa rula, anna lisa gentile, peter haase, and michael cochez, editors, the semantic web - 17th international conference, eswc 2020, heraklion, crete, greece, may 31- june 4, 2020, proceedings, volume 12123 of lecture notes in computer science, pages 514–530
訳抜け防止モード: andreas harth, sabrina kirrane, axel - cyrille ngonga ngomo (英語) ハイコ・ポールハイム、アニサ・ルーラ、アンナ・リザ・ジェンティル、ピーター・ハーゼ and michael cochez, editors, the semantic web - 17th international conference (英語) eswc 2020,ヘラクリオン,クレタ,ギリシャ,2020年5月31日~6月4日 第12123巻 コンピュータサイエンスの講義ノート 514-530頁。
0.69
Springer, 2020. スプリンガー、2020年。 0.59
[Li et al , 2020] Yuliang Li, Jinfeng Li, Yoshihiko Suhara, AnHai Doan, and Wang-Chiew Tan. [Li et al , 2020]Yuriang Li, Jinfeng Li, Suhara Yoshihiko, AnHai Doan, Wang-Chiew Tan。 0.40
Deep entity matching with pre-trained language models. 事前学習された言語モデルとの深いエンティティマッチング。 0.60
Proc. VLDB Endow. Proc VLDB所属。 0.50
, 14(1):50–60, 2020. , 14(1):50–60, 2020. 0.45
[Meyer and Bolosky, 2012] Dutch T. Meyer and William J. Bolosky. Meyer and Bolosky, 2012] Dutch T. Meyer and William J. Bolosky 0.39
A study of practical deduplication. 実践的な重複の研究。 0.79
ACM Trans. Storage, 7(4):14:1–14:20, 2012. ACMトランス。 背番号は7(4):14:1–14:20, 2012。 0.57
[Mudgal et al , 2018] Sidharth Mudgal, Han Li, Theodoros Rekatsinas, AnHai Doan, Youngchoon Park, Ganesh Krishnan, Rohit Deep, Esteban Arcaute, and Vijay Raghavendra. [Mudgal et al , 2018]Sidharth Mudgal, Han Li, Theodoros Rekatsinas, AnHai Doan, Youngchoon Park, Ganesh Krishnan, Rohit Deep, Esteban Arcaute, Vijay Raghavendra] 0.39
Deep learning for entity matching: A design space exploration. エンティティマッチングのためのディープラーニング: デザインスペースの探索。 0.73
In Gautam Das, Christopher M. Jermaine, and Philip A. Bernstein, editors, Proceedings of the 2018 International Conference on Management of Data, SIGMOD Conference 2018, Houston, TX, USA, June 1015, 2018, pages 19–34. Gautam Das, Christopher M. Jermaine, Philip A. Bernstein, editors, Proceedings of the 2018 International Conference on Management of Data, SIGMOD Conference 2018, Houston, TX, USA, June 1015, 2018, page 19–34。
訳抜け防止モード: ゴータム・ダス、クリストファー・M・ジャーマイン、フィリップ・A・バーンスタイン。 2018 International Conference on Management of Data に参加して SIGMOD Conference 2018, Houston, TX, USA, June 1015, 2018 19-34頁。
0.70
ACM, 2018. 2018年、ACM。 0.85
[Nie et al , 2019] Hao Nie, Xianpei Han, Ben He, Le Sun, Bo Chen, Wei Zhang, Suhui Wu, and Hao Kong. [Nie et al , 2019]Hao Nie氏、Xianpei Han氏、Ben He氏、Le Sun氏、Bo Chen氏、Wei Zhang氏、Suhui Wu氏、Hao Kong氏。
訳抜け防止モード: [Nie et al, 2019 ] Hao Nie, Xianpei Han, Ben He, Le Sun, Bo Chen, Wei Zhang スー・ウォ(Suhui Wu)とホー・コング(Hu Kong)。
0.85
Deep sequence-to-sequence entity matching for heterogeneous entity resolution. ヘテロジニアスエンティティ分解のためのディープシーケンス対シーケンスエンティティマッチング 0.58
In Wenwu Zhu, Dacheng Tao, Xueqi Cheng, Peng Cui, Elke A. Rundensteiner, David Carmel, Wenwu Zhu, Dacheng Tao, Xueqi Cheng, Peng Cui, Elke A. Rundensteiner, David Carmel 0.39
Qi He, and Jeffrey Xu Yu, editors, Proceedings of the 28th ACM International Conference on Information and Knowledge Management, CIKM 2019, Beijing, China, November 3-7, 2019, pages 629–638. Qi He, Jeffrey Xu Yu, editors, Proceedings of the 28th ACM International Conference on Information and Knowledge Management, CIKM 2019, Beijing, China, November 3-7, 2019, pages 629–638。 0.46
ACM, 2019. 2019年、ACM。 0.87
[Papadakis et al , 2021] George Papadakis, Ekaterini Ioannou, Emanouil Thanos, and Themis Palpanas. [Papadakis et al , 2021]George Papadakis, Ekaterini Ioannou, Emanouil Thanos, Themis Palpanas. 0.40
The Four Generations of Entity Resolution. エンティティ・レゾリューションの4世代。 0.47
Synthesis Lectures on Data Management. データ管理に関する総合講義。 0.68
Morgan & Claypool Publishers, 2021. Morgan & Claypool Publishers, 2021年。 0.91
[Primpeli and Bizer, 2020] Anna Primpeli and Christian Bizer. [Primpeli and Bizer, 2020]Anna PrimpeliとChristian Bizer。 0.40
Profiling entity matching benchmark tasks. エンティティマッチングベンチマークタスクのプロファイリング。 0.40
In Mathieu d’Aquin, Stefan Dietze, Claudia Hauff, Edward Curry, and Philippe Cudr´e-Mauroux, editors, CIKM ’20: The 29th ACM International Conference on Information and Knowledge Management, Virtual Event, Ireland, October 19-23, 2020, pages 3101–3108. Mathieu d'Aquin, Stefan Dietze, Claudia Hauff, Edward Curry, Philippe Cudr ́e-Mauroux, editors, CIKM ’20: The 29th ACM International Conference on Information and Knowledge Management, Ireland, October 19-23, 2020, page 3101–3108
訳抜け防止モード: mathieu d'aquin, stefan dietze, claudia hauff, edward curry では and philippe cudr ́e - mauroux, editors, cikm ′ 20 : the 29th acm international conference on information and knowledge management アイルランドの仮想イベント、2020年10月19日~23日。 3101-3108頁。
0.71
ACM, 2020. ACM、2020年。 0.86
[Primpeli et al , 2019] Anna Primpeli, Ralph Peeters, and Christian Bizer. [Primpeli et al , 2019]Anna Primpeli、Ralph Peeters、Christian Bizer。 0.36
The WDC training dataset and gold standard for large-scale product matching. WDCトレーニングデータセットと大規模製品マッチングのためのゴールドスタンダード。 0.73
In Sihem Amer-Yahia, Mohammad Mahdian, Ashish Goel, GeertJan Houben, Kristina Lerman, Julian J. McAuley, Ricardo Baeza-Yates, and Leila Zia, editors, Companion of The 2019 World Wide Web Conference, WWW 2019, San Francisco, CA, USA, May 13-17, 2019, pages 381–386. Sihem Amer-Yahia, Mohammad Mahdian, Ashish Goel, GeertJan Houben, Kristina Lerman, Julian J. McAuley, Ricardo Baeza-Yates, and Leila Zia, editors, Companion of the 2019 World Wide Web Conference, WWW 2019, San Francisco, CA, USA, May 13-17, 2019, page 381–386
訳抜け防止モード: In Sihem Amer - Yahia, Mohammad Mahdian, Ashish Goel GeertJan Houben, Kristina Lerman, Julian J. McAuley, Ricardo Baeza - Yates, 編集者のLeila Zia氏は、2019 World Wide Web Conferenceのコンパニオンだ。 WWW 2019, San Francisco, CA, USA, May 13 - 17, 2019 381-386頁。
0.89
ACM, 2019. 2019年、ACM。 0.87
[Thirumuruganathan et al , 2018] Saravanan [thirumuruganathan et al , 2018]サラバナン 0.65
Thirumuruganathan, Shameem Ahamed Puthiya Parambath, Mourad Ouzzani, Nan Tang, and Shafiq R. Joty. Thirumuruganathan, Shameem Ahamed Puthiya Parambath, Mourad Ouzzani, Nan Tang, Shafiq R. Joty 0.36
Reuse and adaptation for entity resolution through transfer learning. 伝達学習によるエンティティ解決のための再利用と適応 0.73
CoRR, abs/1809.11084, 2018. cor、abs/1809.11084、2018年。 0.43
[Thirumuruganathan et al , 2021] Saravanan [Thirumuruganathan et al , 2021]サラバナン 0.36
Thirumuruganathan, Han Li, Nan Tang, Mourad Ouzzani, Yash Govind, Derek Paulsen, Glenn Fung, and AnHai Doan. Thirumuruganathan, Han Li, Nan Tang, Mourad Ouzzani, Yash Govind, Derek Paulsen, Glenn Fung, AnHai Doan
訳抜け防止モード: Thirumuruganathan, Han Li, Nan Tang, Mourad Ouzzani, Yash Govind デレク・ポールセン(Derek Paulsen)、グレン・ファン(Glenn Fung)、アンハイ・ドアン(AnHai Doan)。
0.63
Deep learning for blocking in entity matching: A design space exploration. エンティティマッチングにおけるブロッキングのためのディープラーニング: 設計空間探索。 0.73
Proc. VLDB Endow. Proc VLDB所属。 0.50
, 14(11):2459– 2472, 2021. , 14(11):2459– 2472, 2021. 0.50
[Wang et al , 2011] Jiannan Wang, Guoliang Li, Jeffrey Xu Yu, and Jianhua Feng. [Wang et al , 2011]Jiannan Wang、Guoliang Li、Jeffrey Xu Yu、Jianhua Feng。 0.35
Entity matching: How similar is similar. エンティティマッチング: 類似点がいかに似ているか。 0.65
Proc. VLDB Endow. Proc VLDB所属。 0.50
, 4(10):622–633, 2011. , 4(10):622–633, 2011. 0.45
[Wang et al , 2021] Jin Wang, Yuliang Li, and Wataru Hirota. (wang et al, 2021]jin wang, yuliang li, およびwattruhirota。 0.59
Machamp: A generalized entity matching benchmark. Machamp: 一般的なエンティティマッチングベンチマークです。 0.63
In Gianluca Demartini, Guido Zuccon, J. Shane Culpepper, Zi Huang, and Hanghang Tong, editors, CIKM ’21: The 30th ACM International Conference on Information and Knowledge Management, Virtual Event, Queensland, Australia, November 1 - 5, 2021, pages 4633–4642. Gianluca Demartini, Guido Zuccon, J. Shane Culpepper, Zi Huang, and Hanghang Tong, editors, CIKM ’21: The 30th ACM International Conference on Information and Knowledge Management, Virtual Event, Queensland, Australia, November 1 - 5, 2021, page 4633–4642
訳抜け防止モード: gianluca demartini, guido zuccon, j. shane culpepper, zi huang, and hanghang tong, editors, cikm' 21 : the 30th acm international conference on information and knowledge management オーストラリア,クイーンズランド,11月1日 - 2021年11月5日。 4633-4642頁。
0.76
ACM, 2021. ACM、2021年。 0.81
[Wilke and Rahm, 2021] Moritz Wilke and Erhard Rahm. [Wilke and Rahm, 2021] Moritz WilkeとErhard Rahm。 0.41
Towards multi-modal entity resolution for product matchIn Andreas Thor and S¨oren Totzauer, editors, Proing. 製品マッチングのためのマルチモーダルエンティティ解決を目指す Andreas Thor 氏と Proing のエディタである S soren Totzauer 氏。 0.61
ceedings of the 32nd GI-Workshop Grundlagen von Datenbanken, Online Event, Germany, September 01-03, 2021, volume 3075 of CEUR Workshop Proceedings. 第32回gi-workshop grundlagen von datenbanken, online event, germany, september 01-03, 2021, volume 3075 of ceur workshop proceedings (英語)
訳抜け防止モード: 第32回 GI - Workshop Grundlagen von Datenbanken, Online Event 01年-2021年、CEURワークショップ紀要3075巻。
0.59
CEURWS.org, 2021. CEURWS.org、2021年。 0.30
               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。