Fugu-MT 論文翻訳(概要): Bridging the Gap between Reality and Ideality of Entity Matching: A Revisiting and Benchmark Re-Construction

論文の概要: Bridging the Gap between Reality and Ideality of Entity Matching: A Revisiting and Benchmark Re-Construction

arxiv url: http://arxiv.org/abs/2205.05889v1
Date: Thu, 12 May 2022 05:50:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-13 22:06:09.078727
Title: Bridging the Gap between Reality and Ideality of Entity Matching: A Revisiting and Benchmark Re-Construction
Title（参考訳）: エンティティマッチングの現実と理想のギャップを埋める - 再訪とベンチマークの再構築
Authors: Tianshu Wang, Hongyu Lin, Cheng Fu, Xianpei Han, Le Sun, Feiyu Xiong, Hui Chen, Minlong Lu, Xiuwen Zhu
Abstract要約: 我々は,新しいEMコーパスを構築し,従来のベンチマーク構築プロセスで暗黙的に重要な仮定に挑戦するためにEMベンチマークを再構築する。その結果, 前回のベンチマーク構築プロセスにおける仮定は, オープン環境と一致しないことがわかった。構築されたベンチマークとコードは公開されています。
参考スコア（独自算出の注目度）: 38.6894028899346
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Entity matching (EM) is the most critical step for entity resolution (ER). While current deep learningbased methods achieve very impressive performance on standard EM benchmarks, their realworld application performance is much frustrating. In this paper, we highlight that such the gap between reality and ideality stems from the unreasonable benchmark construction process, which is inconsistent with the nature of entity matching and therefore leads to biased evaluations of current EM approaches. To this end, we build a new EM corpus and re-construct EM benchmarks to challenge critical assumptions implicit in the previous benchmark construction process by step-wisely changing the restricted entities, balanced labels, and single-modal records in previous benchmarks into open entities, imbalanced labels, and multimodal records in an open environment. Experimental results demonstrate that the assumptions made in the previous benchmark construction process are not coincidental with the open environment, which conceal the main challenges of the task and therefore significantly overestimate the current progress of entity matching. The constructed benchmarks and code are publicly released
Abstract（参考訳）: エンティティマッチング(EM)はエンティティ解決(ER)の最も重要なステップである。現在のディープラーニングベースのメソッドは、標準のEMベンチマークで非常に印象的なパフォーマンスを実現していますが、実際のアプリケーションパフォーマンスはずっとフラストレーションがあります。本稿では、現実と理想性のギャップは、エンティティマッチングの性質と矛盾する不合理なベンチマーク構築プロセスに起因し、現在のEMアプローチのバイアス評価につながることを強調する。この目的のために,前回のベンチマークにおいて制限されたエンティティ,バランスラベル,シングルモーダルレコードをオープンエンティティ,不均衡ラベル,マルチモーダルレコードに段階的に変更することにより,前回のベンチマーク構築プロセスにおいて暗黙の重大な仮定に挑戦するために,新たなemコーパスを構築し,emベンチマークを再構築する。実験結果から,従来のベンチマーク構築プロセスにおける仮定は,タスクの主な課題を隠蔽し,実体マッチングの現在の進展を著しく過大評価するオープン環境と一致しないことが示された。構築されたベンチマークとコードが公開されている

関連論文リスト

Pitfalls of Evaluating Language Models with Open Benchmarks [5.387340038770958]
本研究では,公的なテストセット上での不正行為のモデルを体系的に構築することで,これらの弱点を明らかにする。オープンベンチマークにおける高いリーダボードのパフォーマンスは、必ずしも実際の効果を反映するとは限らない。現在のベンチマークプラクティスの基本的な再評価は、堅牢で信頼性の高いLMアセスメントを保証するために不可欠である。
論文参考訳（メタデータ） (2025-07-01T06:17:48Z)
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility [29.437125712259046]
Reasoningは、言語モデル(LM)の次の主要フロンティアとして登場した。我々は総合的な実証的研究を行い、現在の数学的推論ベンチマークは微妙な実装選択に対して非常に敏感であることがわかった。本稿では,ベストプラクティスと報告基準を明確に定義した標準化された評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-09T17:58:17Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。 DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文参考訳（メタデータ） (2025-01-02T17:01:06Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
A Comparative Analysis on Ethical Benchmarking in Large Language Models [0.0]
この研究は、インテリジェントシステムが人間の価値を正確に表現し、それに従って行動するかどうかを評価するテストを開発する機械倫理(ME)ベンチマークの分野に貢献する。我々は,非現実的な倫理的ジレンマによる生態的妥当性の制限,包括的・排他的基準のない非構造的質問生成,人間のアノテーションへの依存によるスケーラビリティの欠如,の3つの主要な課題を明らかにした。医用領域の現実的な倫理的ジレンマを特徴とするTriage BenchmarkとMedicical Law (MedLaw) Benchmarkの2つのMEベンチマークを紹介した。
論文参考訳（メタデータ） (2024-10-11T05:05:21Z)
OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework [21.87740178652843]
因果発見は透明性と信頼性を改善するための有望なアプローチを提供する。本稿では,因果構造と因果効果の違いを評価するための指標を用いたフレキシブルな評価フレームワークを提案する。実データに基づくOpen Causal Discovery Benchmark (OCDB)を導入し、公正な比較を促進し、アルゴリズムの最適化を促進する。
論文参考訳（メタデータ） (2024-06-07T03:09:22Z)
CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。 CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文参考訳（メタデータ） (2024-03-27T17:20:39Z)
HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。 HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。 3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文参考訳（メタデータ） (2024-02-24T08:01:32Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文参考訳（メタデータ） (2023-12-21T03:11:30Z)
TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction [131.7684896032888]
イベント抽出のための標準化され、公正で再現可能なベンチマークであるTextEEを提示する。 TextEEは、標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。 TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証した。
論文参考訳（メタデータ） (2023-11-16T04:43:03Z)
Coherent Entity Disambiguation via Modeling Topic and Categorical Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-11-06T16:40:13Z)
Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文参考訳（メタデータ） (2021-10-12T17:58:59Z)
What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文参考訳（メタデータ） (2021-04-05T20:36:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。