論文の概要: (Almost) Provable Error Bounds Under Distribution Shift via Disagreement
Discrepancy
- arxiv url: http://arxiv.org/abs/2306.00312v1
- Date: Thu, 1 Jun 2023 03:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:30:29.443659
- Title: (Almost) Provable Error Bounds Under Distribution Shift via Disagreement
Discrepancy
- Title(参考訳): 不一致による分布シフト下での(ほぼ)証明可能な誤差境界
- Authors: Elan Rosenfeld, Saurabh Garg
- Abstract要約: 我々は、ラベルのないテストデータを用いて、分散シフト中のディープニューラルネットワークのエラーに対して(ほぼ)保証された上限を導出する。
特に、我々の境界は単純で直感的な条件を必要とし、これは以前の経験的な研究によって十分に正当化される。
この損失は、マルチクラス不一致の最大化を必要とする将来のメソッドのドロップイン代替になることを期待しています。
- 参考スコア(独自算出の注目度): 8.010528849585937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We derive an (almost) guaranteed upper bound on the error of deep neural
networks under distribution shift using unlabeled test data. Prior methods
either give bounds that are vacuous in practice or give estimates that are
accurate on average but heavily underestimate error for a sizeable fraction of
shifts. In particular, the latter only give guarantees based on complex
continuous measures such as test calibration -- which cannot be identified
without labels -- and are therefore unreliable. Instead, our bound requires a
simple, intuitive condition which is well justified by prior empirical works
and holds in practice effectively 100% of the time. The bound is inspired by
$\mathcal{H}\Delta\mathcal{H}$-divergence but is easier to evaluate and
substantially tighter, consistently providing non-vacuous guarantees.
Estimating the bound requires optimizing one multiclass classifier to disagree
with another, for which some prior works have used sub-optimal proxy losses; we
devise a "disagreement loss" which is theoretically justified and performs
better in practice. We expect this loss can serve as a drop-in replacement for
future methods which require maximizing multiclass disagreement. Across a wide
range of benchmarks, our method gives valid error bounds while achieving
average accuracy comparable to competitive estimation baselines. Code is
publicly available at https://github.com/erosenfeld/disagree_discrep .
- Abstract(参考訳): 我々は、ラベルなしテストデータを用いて、分布シフト中のディープニューラルネットワークの誤差を(ほぼ)保証した上限を導出する。
従来の手法では、実際は空でない境界を与えるか、あるいは、ある大きさのシフトに対して平均で正確だが非常に過小評価される誤差を見積もる。
特に後者は、ラベルなしでは識別できないテストキャリブレーションのような複雑な連続的な測定に基づいてのみ保証し、従って信頼できない。
その代わり、我々の境界は単純で直感的な条件を必要とし、これは以前の経験的作業によって十分に正当化され、事実上100%の時間を保持する。
このバウンダリは$\mathcal{H}\Delta\mathcal{H}$-divergenceにインスパイアされるが、評価が簡単で、より厳密で、常に空でない保証を提供する。
境界を推定するには、1つのマルチクラス分類器を最適化し、それとは違って、いくつかの先行研究では、準最適プロキシ損失を使用しており、理論的に正当化され、実際より優れた性能を発揮する「診断損失」を考案する。
この損失は、マルチクラス不一致の最大化を必要とする将来のメソッドのドロップイン代替になることを期待しています。
提案手法は, 幅広いベンチマークで有効な誤差境界を与えつつ, 平均精度を競合推定ベースラインと比較した。
コードはhttps://github.com/erosenfeld/disagree_discrepで公開されている。
関連論文リスト
- Inference Scaling $\scriptsize\mathtt{F}$Laws: The Limits of LLM Resampling with Imperfect Verifiers [13.823743787003787]
近年の研究では、推論スケーリングにより、より弱い言語モデルがより強力なモデルの精度に適合または超えることを期待している。
より弱いモデルの推論スケーリングの量は、十分に強いモデルの単一サンプル精度に匹敵することができないことを示す。
また、精度以上の偽陽性には、コーディングスタイルの慣行への順守の欠如など、他の望ましくない性質があることも示している。
論文 参考訳(メタデータ) (2024-11-26T15:13:06Z) - Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Dirichlet-Based Prediction Calibration for Learning with Noisy Labels [40.78497779769083]
雑音ラベルによる学習はディープニューラルネットワーク(DNN)の一般化性能を著しく損なう
既存のアプローチでは、損失補正やサンプル選択手法によってこの問題に対処している。
そこで我々は,textitDirichlet-based Prediction (DPC) 法を解法として提案する。
論文 参考訳(メタデータ) (2024-01-13T12:33:04Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Distribution-Free Inference for the Regression Function of Binary
Classification [0.0]
本稿では,ユーザの信頼度レベルに対する真の回帰関数に対して,正確に,分布自由で,漸近的に保証されていない信頼領域を構築するための再サンプリングフレームワークを提案する。
構築された信頼領域は強い整合性、すなわち、任意の偽モデルが確率 1 で長期にわたって除外されることが証明された。
論文 参考訳(メタデータ) (2023-08-03T15:52:27Z) - Is the Performance of My Deep Network Too Good to Be True? A Direct
Approach to Estimating the Bayes Error in Binary Classification [86.32752788233913]
分類問題において、ベイズ誤差は、最先端の性能を持つ分類器を評価するための基準として用いられる。
我々はベイズ誤差推定器を提案する。そこでは,クラスの不確かさを示すラベルの平均値のみを評価できる。
我々の柔軟なアプローチは、弱い教師付きデータであってもベイズ誤差を推定できる。
論文 参考訳(メタデータ) (2022-02-01T13:22:26Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Shift Happens: Adjusting Classifiers [2.8682942808330703]
ブレアスコアやログロス(クロスエントロピー)のような適切なスコアリングルールによって測定される期待損失を最小限に抑えることは、確率的分類器を訓練する際の共通の目的である。
本稿では,全ての予測を平均予測とクラス分布に等化させる手法を提案する。
実際に、クラス分布が概ね知られている場合、シフトの量やクラス分布が知られている精度に応じて、損失が減少することがしばしばあることを実験によって実証した。
論文 参考訳(メタデータ) (2021-11-03T21:27:27Z) - Tune it the Right Way: Unsupervised Validation of Domain Adaptation via
Soft Neighborhood Density [125.64297244986552]
本稿では,点間の類似度分布のエントロピーを計算し,ソフト近傍の密度を測定する教師なし検証基準を提案する。
私たちの基準は、競合する検証方法よりもシンプルですが、より効果的です。
論文 参考訳(メタデータ) (2021-08-24T17:41:45Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z) - Knowing what you know: valid and validated confidence sets in multiclass
and multilabel prediction [0.8594140167290097]
マルチクラスおよびマルチラベル問題において、有効な信頼セットを構築するための共形予測手法を開発する。
量子レグレッションのアイデアを活用することで、常に正しいカバレッジを保証すると同時に、マルチクラスとマルチラベルの予測問題に対して条件付きカバレッジを提供する手法を構築する。
論文 参考訳(メタデータ) (2020-04-21T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。