論文の概要: Can We Reliably Rank Model Performance across Domains without Labeled Data?
- arxiv url: http://arxiv.org/abs/2510.09519v1
- Date: Fri, 10 Oct 2025 16:29:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.39321
- Title: Can We Reliably Rank Model Performance across Domains without Labeled Data?
- Title(参考訳): ラベル付きデータなしで、ドメイン全体のモデルパフォーマンスを確実にランク付けできますか?
- Authors: Veronica Rammouz, Aaron Gonzalez, Carlos Cruzportillo, Adrian Tan, Nicole Beebe, Anthony Rios,
- Abstract要約: 4つの基本分類器と複数の大規模言語モデルを用いた2段階評価設定を用いて、ランク付け信頼性に影響を与える要因を誤差予測器として分析する。
ドメイン間のパフォーマンスの違いが大きい場合や、エラーモデルの予測がベースモデルの真の失敗パターンと一致した場合、ランキングは信頼性が高くなる。
- 参考スコア(独自算出の注目度): 5.8993591594866155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating model performance without labels is an important goal for understanding how NLP models generalize. While prior work has proposed measures based on dataset similarity or predicted correctness, it remains unclear when these estimates produce reliable performance rankings across domains. In this paper, we analyze the factors that affect ranking reliability using a two-step evaluation setup with four base classifiers and several large language models as error predictors. Experiments on the GeoOLID and Amazon Reviews datasets, spanning 15 domains, show that large language model-based error predictors produce stronger and more consistent rank correlations with true accuracy than drift-based or zero-shot baselines. Our analysis reveals two key findings: ranking is more reliable when performance differences across domains are larger, and when the error model's predictions align with the base model's true failure patterns. These results clarify when performance estimation methods can be trusted and provide guidance for their use in cross-domain model evaluation.
- Abstract(参考訳): ラベルなしでモデル性能を推定することは、NLPモデルがどのように一般化するかを理解する上で重要な目標である。
先行研究ではデータセットの類似性や予測された正確性に基づく測定方法が提案されているが、これらの推定値がドメイン間の信頼性の高いパフォーマンスランキングをいつ作成するかは定かではない。
本稿では, 4つの基本分類器と, 誤り予測器として大規模言語モデルを用いた2段階評価設定を用いて, ランキングの信頼性に影響を与える要因を解析する。
GeoOLIDとAmazon Reviewsデータセットの実験は、15のドメインにまたがって、大きな言語モデルベースのエラー予測器が、ドリフトベースやゼロショットベースラインよりも正確で一貫性のあるランク相関を生成することを示している。
ドメイン間のパフォーマンスの違いが大きい場合や、エラーモデルの予測がベースモデルの真の失敗パターンと一致した場合、ランキングは信頼性が高くなる。
これらの結果から,性能評価手法が信頼でき,ドメイン間モデル評価に使用するためのガイダンスが得られた。
関連論文リスト
- Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Performance Prediction Under Dataset Shift [1.1602089225841632]
生成した合成摂動を学習し,様々な性能予測モデルの新たな領域への一般化能力について検討する。
本稿では,性能予測器の信頼性を保証するために,予測精度の自然な不確実性評価を提案する。
論文 参考訳(メタデータ) (2022-06-21T19:40:58Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。