論文の概要: Bridging the Gap between Reality and Ideality of Entity Matching: A
Revisiting and Benchmark Re-Construction
- arxiv url: http://arxiv.org/abs/2205.05889v1
- Date: Thu, 12 May 2022 05:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 22:06:09.078727
- Title: Bridging the Gap between Reality and Ideality of Entity Matching: A
Revisiting and Benchmark Re-Construction
- Title(参考訳): エンティティマッチングの現実と理想のギャップを埋める - 再訪とベンチマークの再構築
- Authors: Tianshu Wang, Hongyu Lin, Cheng Fu, Xianpei Han, Le Sun, Feiyu Xiong,
Hui Chen, Minlong Lu, Xiuwen Zhu
- Abstract要約: 我々は,新しいEMコーパスを構築し,従来のベンチマーク構築プロセスで暗黙的に重要な仮定に挑戦するためにEMベンチマークを再構築する。
その結果, 前回のベンチマーク構築プロセスにおける仮定は, オープン環境と一致しないことがわかった。
構築されたベンチマークとコードは公開されています。
- 参考スコア(独自算出の注目度): 38.6894028899346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity matching (EM) is the most critical step for entity resolution (ER).
While current deep learningbased methods achieve very impressive performance on
standard EM benchmarks, their realworld application performance is much
frustrating. In this paper, we highlight that such the gap between reality and
ideality stems from the unreasonable benchmark construction process, which is
inconsistent with the nature of entity matching and therefore leads to biased
evaluations of current EM approaches. To this end, we build a new EM corpus and
re-construct EM benchmarks to challenge critical assumptions implicit in the
previous benchmark construction process by step-wisely changing the restricted
entities, balanced labels, and single-modal records in previous benchmarks into
open entities, imbalanced labels, and multimodal records in an open
environment. Experimental results demonstrate that the assumptions made in the
previous benchmark construction process are not coincidental with the open
environment, which conceal the main challenges of the task and therefore
significantly overestimate the current progress of entity matching. The
constructed benchmarks and code are publicly released
- Abstract(参考訳): エンティティマッチング(EM)はエンティティ解決(ER)の最も重要なステップである。
現在のディープラーニングベースのメソッドは、標準のEMベンチマークで非常に印象的なパフォーマンスを実現していますが、実際のアプリケーションパフォーマンスはずっとフラストレーションがあります。
本稿では、現実と理想性のギャップは、エンティティマッチングの性質と矛盾する不合理なベンチマーク構築プロセスに起因し、現在のEMアプローチのバイアス評価につながることを強調する。
この目的のために,前回のベンチマークにおいて制限されたエンティティ,バランスラベル,シングルモーダルレコードをオープンエンティティ,不均衡ラベル,マルチモーダルレコードに段階的に変更することにより,前回のベンチマーク構築プロセスにおいて暗黙の重大な仮定に挑戦するために,新たなemコーパスを構築し,emベンチマークを再構築する。
実験結果から,従来のベンチマーク構築プロセスにおける仮定は,タスクの主な課題を隠蔽し,実体マッチングの現在の進展を著しく過大評価するオープン環境と一致しないことが示された。
構築されたベンチマークとコードが公開されている
関連論文リスト
- HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Topic-Aware Evaluation and Transformer Methods for Topic-Controllable
Summarization [4.660152700841719]
Topic-controllable summarization(トピック制御可能な要約)は、幅広い潜在的応用を持つ新興の研究分野である。
現在、この課題に対する評価基準は確立されていない。
生成した要約を自動的に評価する話題指向評価尺度を提案する。
論文 参考訳(メタデータ) (2022-06-09T07:28:16Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Realistic Evaluation Principles for Cross-document Coreference
Resolution [19.95214898312209]
我々は、モデルが標準ECB+データセットの合成トピック構造を利用するべきではないと主張している。
私たちは、より現実的な評価原則が競争モデルに与える影響を実証的に示します。
論文 参考訳(メタデータ) (2021-06-08T09:05:21Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。