論文の概要: Confidence Calibration in Large Language Model-Based Entity Matching
- arxiv url: http://arxiv.org/abs/2509.19557v1
- Date: Tue, 23 Sep 2025 20:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.59789
- Title: Confidence Calibration in Large Language Model-Based Entity Matching
- Title(参考訳): 大規模言語モデルに基づくエンティティマッチングにおける信頼度校正
- Authors: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro,
- Abstract要約: 温度スケーリング,モンテカルロ・ドロップアウト,アンサンブルを用いて調整した信頼度に対して,エンティティマッチングタスクのベースラインRoBERTa信頼度を比較した。
この結果から,提案したRoBERTaモデルでは,予測誤差スコアが0.0043から0.0552の範囲でわずかに過信感を示すことがわかった。
この過信は温度スケーリングによって緩和でき、期待されるエラースコアを最大23.83%削減できる。
- 参考スコア(独自算出の注目度): 7.039941024814792
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.
- Abstract(参考訳): 本研究は,エンティティマッチングにおける大規模言語モデルと信頼性校正の交わりについて検討することを目的とする。
この目的のために, 温度スケーリング, モンテカルロ落下, アンサンブルを用いて調整した信頼度に対して, エンティティマッチングタスクのベースラインRoBERTa信頼度を比較する実験的検討を行った。
私たちはAbt-Buy, DBLP-ACM, iTunes-Amazon, Companyのデータセットを使用します。
この結果から,提案したRoBERTaモデルでは,予測校正誤差スコアが0.0043から0.0552の範囲でわずかに過信感を示すことがわかった。
この過信は温度スケーリングによって緩和でき、期待される校正誤差のスコアを最大23.83%削減できる。
関連論文リスト
- A Confidence Interval for the $\ell_2$ Expected Calibration Error [35.88784957918326]
我々は信頼区間を$ell$ expected the Error (ECE) で開発する。
信頼性キャリブレーションの一般的な概念とキャリブレーションの両方を含む,トップ1からk$のキャリブレーションを考える。
ECEのデバイアスド推定器では、正規性を示すが、校正モデルとミスドモデルに対する収束率と分散は異なる。
論文 参考訳(メタデータ) (2024-08-16T20:00:08Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Enabling Calibration In The Zero-Shot Inference of Large Vision-Language
Models [58.720142291102135]
プロンプト、データセット、アーキテクチャといった関連する変数のキャリブレーションを測定し、CLIPによるゼロショット推論が誤校正されていることを見つけます。
学習した1つの温度は、推論データセットにまたがって特定のCLIPモデルごとに一般化され、選択が促される。
論文 参考訳(メタデータ) (2023-03-11T17:14:04Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Mitigating Bias in Calibration Error Estimation [28.46667300490605]
本研究では,ECE_binが真の校正誤差を体系的に過小評価または過大評価できることを示すシミュレーションフレームワークを提案する。
ECE_sweep は、ビンの数をできるだけ多く選択する簡単な代替校正誤差メトリックを提案します。
論文 参考訳(メタデータ) (2020-12-15T23:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。