論文の概要: How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation
- arxiv url: http://arxiv.org/abs/2404.05622v1
- Date: Mon, 8 Apr 2024 15:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 13:45:54.579060
- Title: How to Evaluate Entity Resolution Systems: An Entity-Centric Framework with Application to Inventor Name Disambiguation
- Title(参考訳): エンティティ解決システムを評価する方法: 発明者名の曖昧さを解消するEntity-Centric Framework
- Authors: Olivier Binette, Youngsoo Baek, Siddharth Engineer, Christina Jones, Abel Dasylva, Jerome P. Reiter,
- Abstract要約: 本稿では,要約統計をモニタリングする統合フレームワークと統合したエンティティ中心のデータラベリング手法を提案する。
これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。
- 参考スコア(独自算出の注目度): 1.7812428873698403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity resolution (record linkage, microclustering) systems are notoriously difficult to evaluate. Looking for a needle in a haystack, traditional evaluation methods use sophisticated, application-specific sampling schemes to find matching pairs of records among an immense number of non-matches. We propose an alternative that facilitates the creation of representative, reusable benchmark data sets without necessitating complex sampling schemes. These benchmark data sets can then be used for model training and a variety of evaluation tasks. Specifically, we propose an entity-centric data labeling methodology that integrates with a unified framework for monitoring summary statistics, estimating key performance metrics such as cluster and pairwise precision and recall, and analyzing root causes for errors. We validate the framework in an application to inventor name disambiguation and through simulation studies. Software: https://github.com/OlivierBinette/er-evaluation/
- Abstract(参考訳): エンティティの解像度(レコードのリンク、マイクロクラスタリング)システムを評価するのは非常に難しい。
干し草の山の中の針を探すため、従来の評価手法では、高度なアプリケーション固有のサンプリングスキームを使用して、膨大な数の非マッチの中から一致するレコードを見つける。
本稿では,複雑なサンプリング方式を必要とせずに,代表的で再利用可能なベンチマークデータセットの作成を容易にする方法を提案する。
これらのベンチマークデータセットは、モデルトレーニングやさまざまな評価タスクに使用できる。
具体的には、要約統計の監視、クラスタやペアの精度やリコールといった重要なパフォーマンス指標の推定、エラーの根本原因の分析など、統合されたフレームワークと統合されたエンティティ中心のデータラベリング手法を提案する。
本研究では,発明者の名称の曖昧さとシミュレーション研究を通じて,その枠組みを検証した。
ソフトウェア:https://github.com/OlivierBinette/er-evaluation/
関連論文リスト
- Efficient Failure Pattern Identification of Predictive Algorithms [15.02620042972929]
本稿では,人間のアノテータチームとシーケンシャルレコメンデーションアルゴリズムからなる人間機械協調フレームワークを提案する。
その結果、様々な信号対雑音比で複数のデータセット上でのフレームワークの競合性能を実証的に実証した。
論文 参考訳(メタデータ) (2023-06-01T14:54:42Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - High-Level Synthetic Data Generation with Data Set Archetypes [4.13592995550836]
クラスタ分析は、異なるアルゴリズムの評価と比較に有効なベンチマークに依存している。
データセットのアーキタイプに基づく合成データ生成を提案する。
評価シナリオの言葉による記述からベンチマークを純粋に設定することが可能である。
論文 参考訳(メタデータ) (2023-03-24T23:45:27Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Entity Matching by Pool-based Active Learning [2.690502103971799]
本稿では,エンティティマッチングタスクのためのアクティブラーニング手法ALMatcherを提案する。
この方法は、少数の貴重なサンプルのみを手動でラベル付けし、これらのサンプルを使用して高品質なモデルを構築する必要がある。
提案手法は,異なるフィールドの7つのデータセットに対して検証された。
論文 参考訳(メタデータ) (2022-11-01T07:31:43Z) - CEREAL: Few-Sample Clustering Evaluation [4.569028973407756]
限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。
本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T19:52:41Z) - Object Type Clustering using Markov Directly-Follow Multigraph in
Object-Centric Process Mining [2.3351527694849574]
本稿では,Markov Directly-Follow Multigraphに基づくクラスタ類似のケース概念に対する新しいアプローチを提案する。
しきい値チューニングアルゴリズムは、異なるレベルの類似性に基づいて発見できる異なるクラスタの集合を特定するためにも定義される。
論文 参考訳(メタデータ) (2022-06-22T12:36:46Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z) - CONSAC: Robust Multi-Model Fitting by Conditional Sample Consensus [62.86856923633923]
我々は,同じ形状の複数のパラメトリックモデルを雑音測定に適合させる頑健な推定器を提案する。
複数のモデル検出のための手作り検索戦略を利用する従来の研究とは対照的に,データから検索戦略を学習する。
探索の自己教師付き学習において,提案したアルゴリズムをマルチホログラフィー推定で評価し,最先端手法よりも優れた精度を示す。
論文 参考訳(メタデータ) (2020-01-08T17:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。