論文の概要: Predicting generalization performance with correctness discriminators
- arxiv url: http://arxiv.org/abs/2311.09422v1
- Date: Wed, 15 Nov 2023 22:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:30:10.950772
- Title: Predicting generalization performance with correctness discriminators
- Title(参考訳): 正当性判別器による一般化性能の予測
- Authors: Yuekun Yao and Alexander Koller
- Abstract要約: 未確認データに対して,金のラベルを必要とせず,精度の上下境界を確立する新しいモデルを提案する。
予測された上境界と下限の間に金の精度が確実に成立する様々なタグ付け、構文解析、意味解析タスクを示す。
- 参考スコア(独自算出の注目度): 64.00420578048855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to predict an NLP model's accuracy on unseen, potentially
out-of-distribution data is a prerequisite for trustworthiness. We present a
novel model that establishes upper and lower bounds on the accuracy, without
requiring gold labels for the unseen data. We achieve this by training a
discriminator which predicts whether the output of a given sequence-to-sequence
model is correct or not. We show across a variety of tagging, parsing, and
semantic parsing tasks that the gold accuracy is reliably between the predicted
upper and lower bounds, and that these bounds are remarkably close together.
- Abstract(参考訳): nlpモデルの非知覚的、潜在的に分布外データに対する精度を予測する能力は、信頼性の前提条件である。
未確認データに対して,ゴールドラベルを必要とせず,精度の上下境界を確立する新しいモデルを提案する。
我々は、与えられたシーケンスからシーケンスへのモデルの出力が正しいかどうかを予測する判別器を訓練することでこれを達成する。
我々は, 金の精度が予測上界と下界の間に確実にあり, それらの境界が著しく近い, 様々なタグ付け, 解析, 意味解析のタスクにまたがっていることを示す。
関連論文リスト
- Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - Measuring Stochastic Data Complexity with Boltzmann Influence Functions [12.501336941823627]
テストポイントにおけるモデルの予測の不確かさを推定することは、分散シフトの下で信頼性とキャリブレーションを確保する重要な要素である。
温度スケールボルツマンの影響関数でモデルを線形化するpNML分布のスケーラブルかつ効率的な近似であるIF-COMPを提案する。
IF-COMPは不確実性の校正、誤ラベル検出、OOD検出のタスクに対して実験により検証され、そこでは強いベースライン法と一貫した一致または打ち負かされる。
論文 参考訳(メタデータ) (2024-06-04T20:01:39Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - Approximate Conditional Coverage via Neural Model Approximations [0.030458514384586396]
実験的に信頼性の高い近似条件付きカバレッジを得るためのデータ駆動手法を解析する。
我々は、限界範囲のカバレッジ保証を持つ分割型代替案で、実質的な(そして、そうでない)アンダーカバーの可能性を実証する。
論文 参考訳(メタデータ) (2022-05-28T02:59:05Z) - Striking a Balance: Alleviating Inconsistency in Pre-trained Models for
Symmetric Classification Tasks [4.971443651456398]
不整合は、予測されたラベルまたは信頼スコアでしばしば観察される。
我々は、このモデルの欠点を強調し、対称分類の不整合を軽減するために整合損失関数を適用した。
その結果,精度の低下を伴わない3つのパラフレーズ検出データセットに対する予測の整合性が改善された。
論文 参考訳(メタデータ) (2022-03-25T07:55:39Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Estimation of Accurate and Calibrated Uncertainties in Deterministic
models [0.8702432681310401]
我々は,決定論的予測を確率論的予測に変換する手法を考案した。
そのためには,そのようなモデルの精度と信頼性(校正)を損なう必要がある。
隠れたノイズを正確に回収できる合成データと、大規模な実世界のデータセットの両方について、いくつかの例を示す。
論文 参考訳(メタデータ) (2020-03-11T04:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。