論文の概要: Confidence Calibration in Large Language Model-Based Entity Matching
- arxiv url: http://arxiv.org/abs/2509.19557v1
- Date: Tue, 23 Sep 2025 20:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.59789
- Title: Confidence Calibration in Large Language Model-Based Entity Matching
- Title(参考訳): 大規模言語モデルに基づくエンティティマッチングにおける信頼度校正
- Authors: Iris Kamsteeg, Juan Cardenas-Cartagena, Floris van Beers, Gineke ten Holt, Tsegaye Misikir Tashu, Matias Valdenegro-Toro,
- Abstract要約: 温度スケーリング,モンテカルロ・ドロップアウト,アンサンブルを用いて調整した信頼度に対して,エンティティマッチングタスクのベースラインRoBERTa信頼度を比較した。
この結果から,提案したRoBERTaモデルでは,予測誤差スコアが0.0043から0.0552の範囲でわずかに過信感を示すことがわかった。
この過信は温度スケーリングによって緩和でき、期待されるエラースコアを最大23.83%削減できる。
- 参考スコア(独自算出の注目度): 7.039941024814792
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This research aims to explore the intersection of Large Language Models and confidence calibration in Entity Matching. To this end, we perform an empirical study to compare baseline RoBERTa confidences for an Entity Matching task against confidences that are calibrated using Temperature Scaling, Monte Carlo Dropout and Ensembles. We use the Abt-Buy, DBLP-ACM, iTunes-Amazon and Company datasets. The findings indicate that the proposed modified RoBERTa model exhibits a slight overconfidence, with Expected Calibration Error scores ranging from 0.0043 to 0.0552 across datasets. We find that this overconfidence can be mitigated using Temperature Scaling, reducing Expected Calibration Error scores by up to 23.83%.
- Abstract(参考訳): 本研究は,エンティティマッチングにおける大規模言語モデルと信頼性校正の交わりについて検討することを目的とする。
この目的のために, 温度スケーリング, モンテカルロ落下, アンサンブルを用いて調整した信頼度に対して, エンティティマッチングタスクのベースラインRoBERTa信頼度を比較する実験的検討を行った。
私たちはAbt-Buy, DBLP-ACM, iTunes-Amazon, Companyのデータセットを使用します。
この結果から,提案したRoBERTaモデルでは,予測校正誤差スコアが0.0043から0.0552の範囲でわずかに過信感を示すことがわかった。
この過信は温度スケーリングによって緩和でき、期待される校正誤差のスコアを最大23.83%削減できる。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - Beyond One-Hot Labels: Semantic Mixing for Model Calibration [22.39558434131574]
textbfCalibration-aware Semantic Mixing (CSM) は、クラス特性の混合したトレーニングサンプルを生成する新しいフレームワークである。
我々はCSMが最先端のキャリブレーション手法よりも優れたキャリブレーションを実現することを示す。
論文 参考訳(メタデータ) (2025-04-18T08:26:18Z) - Calibrating Language Models with Adaptive Temperature Scaling [58.056023173579625]
本稿では,各トークンの温度スケーリングパラメータを予測するポストホックキャリブレーション法であるAdaptive Temperature Scaling (ATS)を紹介する。
ATSは、以前のキャリブレーション法と比較して、3つの下流自然言語評価ベンチマークで10-50%以上のキャリブレーションを改善する。
論文 参考訳(メタデータ) (2024-09-29T22:54:31Z) - A Confidence Interval for the $\ell_2$ Expected Calibration Error [35.88784957918326]
我々は信頼区間を$ell$ expected the Error (ECE) で開発する。
信頼性キャリブレーションの一般的な概念とキャリブレーションの両方を含む,トップ1からk$のキャリブレーションを考える。
ECEのデバイアスド推定器では、正規性を示すが、校正モデルとミスドモデルに対する収束率と分散は異なる。
論文 参考訳(メタデータ) (2024-08-16T20:00:08Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibration Error Estimation Using Fuzzy Binning [0.0]
ファジィビンニング手法を用いてキャリブレーション誤差を算出するファジィ誤差計量(FCE)を提案する。
以上の結果から,FCEは特にマルチクラス設定において,キャリブレーション誤差の予測に優れることがわかった。
論文 参考訳(メタデータ) (2023-04-30T18:06:14Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - Enabling Calibration In The Zero-Shot Inference of Large Vision-Language
Models [58.720142291102135]
プロンプト、データセット、アーキテクチャといった関連する変数のキャリブレーションを測定し、CLIPによるゼロショット推論が誤校正されていることを見つけます。
学習した1つの温度は、推論データセットにまたがって特定のCLIPモデルごとに一般化され、選択が促される。
論文 参考訳(メタデータ) (2023-03-11T17:14:04Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Mitigating Bias in Calibration Error Estimation [28.46667300490605]
本研究では,ECE_binが真の校正誤差を体系的に過小評価または過大評価できることを示すシミュレーションフレームワークを提案する。
ECE_sweep は、ビンの数をできるだけ多く選択する簡単な代替校正誤差メトリックを提案します。
論文 参考訳(メタデータ) (2020-12-15T23:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。