論文の概要: Bridging the Gap between Reality and Ideality of Entity Matching: A
Revisiting and Benchmark Re-Construction
- arxiv url: http://arxiv.org/abs/2205.05889v1
- Date: Thu, 12 May 2022 05:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 22:06:09.078727
- Title: Bridging the Gap between Reality and Ideality of Entity Matching: A
Revisiting and Benchmark Re-Construction
- Title(参考訳): エンティティマッチングの現実と理想のギャップを埋める - 再訪とベンチマークの再構築
- Authors: Tianshu Wang, Hongyu Lin, Cheng Fu, Xianpei Han, Le Sun, Feiyu Xiong,
Hui Chen, Minlong Lu, Xiuwen Zhu
- Abstract要約: 我々は,新しいEMコーパスを構築し,従来のベンチマーク構築プロセスで暗黙的に重要な仮定に挑戦するためにEMベンチマークを再構築する。
その結果, 前回のベンチマーク構築プロセスにおける仮定は, オープン環境と一致しないことがわかった。
構築されたベンチマークとコードは公開されています。
- 参考スコア(独自算出の注目度): 38.6894028899346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity matching (EM) is the most critical step for entity resolution (ER).
While current deep learningbased methods achieve very impressive performance on
standard EM benchmarks, their realworld application performance is much
frustrating. In this paper, we highlight that such the gap between reality and
ideality stems from the unreasonable benchmark construction process, which is
inconsistent with the nature of entity matching and therefore leads to biased
evaluations of current EM approaches. To this end, we build a new EM corpus and
re-construct EM benchmarks to challenge critical assumptions implicit in the
previous benchmark construction process by step-wisely changing the restricted
entities, balanced labels, and single-modal records in previous benchmarks into
open entities, imbalanced labels, and multimodal records in an open
environment. Experimental results demonstrate that the assumptions made in the
previous benchmark construction process are not coincidental with the open
environment, which conceal the main challenges of the task and therefore
significantly overestimate the current progress of entity matching. The
constructed benchmarks and code are publicly released
- Abstract(参考訳): エンティティマッチング(EM)はエンティティ解決(ER)の最も重要なステップである。
現在のディープラーニングベースのメソッドは、標準のEMベンチマークで非常に印象的なパフォーマンスを実現していますが、実際のアプリケーションパフォーマンスはずっとフラストレーションがあります。
本稿では、現実と理想性のギャップは、エンティティマッチングの性質と矛盾する不合理なベンチマーク構築プロセスに起因し、現在のEMアプローチのバイアス評価につながることを強調する。
この目的のために,前回のベンチマークにおいて制限されたエンティティ,バランスラベル,シングルモーダルレコードをオープンエンティティ,不均衡ラベル,マルチモーダルレコードに段階的に変更することにより,前回のベンチマーク構築プロセスにおいて暗黙の重大な仮定に挑戦するために,新たなemコーパスを構築し,emベンチマークを再構築する。
実験結果から,従来のベンチマーク構築プロセスにおける仮定は,タスクの主な課題を隠蔽し,実体マッチングの現在の進展を著しく過大評価するオープン環境と一致しないことが示された。
構築されたベンチマークとコードが公開されている
関連論文リスト
- A Comparative Analysis on Ethical Benchmarking in Large Language Models [0.0]
この研究は、インテリジェントシステムが人間の価値を正確に表現し、それに従って行動するかどうかを評価するテストを開発する機械倫理(ME)ベンチマークの分野に貢献する。
我々は,非現実的な倫理的ジレンマによる生態的妥当性の制限,包括的・排他的基準のない非構造的質問生成,人間のアノテーションへの依存によるスケーラビリティの欠如,の3つの主要な課題を明らかにした。
医用領域の現実的な倫理的ジレンマを特徴とするTriage BenchmarkとMedicical Law (MedLaw) Benchmarkの2つのMEベンチマークを紹介した。
論文 参考訳(メタデータ) (2024-10-11T05:05:21Z) - OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework [21.87740178652843]
因果発見は透明性と信頼性を改善するための有望なアプローチを提供する。
本稿では,因果構造と因果効果の違いを評価するための指標を用いたフレキシブルな評価フレームワークを提案する。
実データに基づくOpen Causal Discovery Benchmark (OCDB)を導入し、公正な比較を促進し、アルゴリズムの最適化を促進する。
論文 参考訳(メタデータ) (2024-06-07T03:09:22Z) - CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction [131.7684896032888]
イベント抽出のための標準化され、公正で再現可能なベンチマークであるTextEEを提示する。
TextEEは、標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。
TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証した。
論文 参考訳(メタデータ) (2023-11-16T04:43:03Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。