論文の概要: Calibrated Learning to Defer with One-vs-All Classifiers
- arxiv url: http://arxiv.org/abs/2202.03673v1
- Date: Tue, 8 Feb 2022 06:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 01:41:16.544555
- Title: Calibrated Learning to Defer with One-vs-All Classifiers
- Title(参考訳): 1-vs-all分類器を用いた校正学習
- Authors: Rajeev Verma, Eric Nalisnick
- Abstract要約: 遅延(L2D)フレームワークの学習は、AIシステムをより安全にする可能性がある。
与えられた入力に対して、正しい行動を取るモデルよりも人間の方が確率が高い場合、システムは決定を人間に推論することができる。
本研究では,L2Dシステムのキャリブレーションについて検討し,出力する確率が健全かどうかを検討した。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The learning to defer (L2D) framework has the potential to make AI systems
safer. For a given input, the system can defer the decision to a human if the
human is more likely than the model to take the correct action. We study the
calibration of L2D systems, investigating if the probabilities they output are
sound. We find that Mozannar & Sontag's (2020) multiclass framework is not
calibrated with respect to expert correctness. Moreover, it is not even
guaranteed to produce valid probabilities due to its parameterization being
degenerate for this purpose. We propose an L2D system based on one-vs-all
classifiers that is able to produce calibrated probabilities of expert
correctness. Furthermore, our loss function is also a consistent surrogate for
multiclass L2D, like Mozannar & Sontag's (2020). Our experiments verify that
not only is our system calibrated, but this benefit comes at no cost to
accuracy. Our model's accuracy is always comparable (and often superior) to
Mozannar & Sontag's (2020) model's in tasks ranging from hate speech detection
to galaxy classification to diagnosis of skin lesions.
- Abstract(参考訳): 遅延学習(L2D)フレームワークは、AIシステムをより安全にする可能性がある。
ある入力に対して、このシステムは、人間が正しい行動を取るモデルよりも可能性の高い場合、その決定を人間に延期することができる。
本研究では,L2Dシステムのキャリブレーションについて検討し,出力する確率が健全かどうかを検討した。
我々は、mozannar & sontag (2020)のマルチクラスフレームワークが専門家の正確性に関して調整されていないことを発見した。
さらに、この目的のためにパラメータ化が縮退しているため、有効な確率を生成することさえ保証されていない。
本稿では, 1-vs-all分類器をベースとしたL2Dシステムを提案する。
さらに、この損失関数は Mozannar & Sontag's (2020) のような多クラスL2Dに対する一貫したサロゲートでもある。
私たちの実験では、システムの校正だけでなく、このメリットも正確性にコストがかかりません。
我々のモデルの精度は、ヘイトスピーチ検出から銀河分類、皮膚病変の診断に至るまでのタスクにおけるMozannar & Sontag(2020)モデルと常に同等(そしてしばしば優れている)である。
関連論文リスト
- Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Improving Label Error Detection and Elimination with Uncertainty Quantification [5.184615738004059]
我々は不確実な量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル認識アルゴリズムを開発した。
我々のUQ-LEDアルゴリズムは、ラベルエラーの同定において最先端の信頼性学習より優れている。
本稿では,現実的なクラス依存ラベルエラーを合成的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T15:17:52Z) - Learning to Defer to a Population: A Meta-Learning Approach [4.64209268422757]
テスト時に目に見えない専門家に対処できるL2Dシステムを定式化します。
テストポイントに類似したコンテキストセット内のポイントを検索できるアテンションメカニズムを採用しています。
実験では,画像認識,交通標識検出,皮膚病変診断ベンチマークについて検討した。
論文 参考訳(メタデータ) (2024-03-05T06:10:28Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Who Should Predict? Exact Algorithms For Learning to Defer to Humans [40.22768241509553]
従来の手法では,誤分類誤りの少ない人間-AIシステムを見つけることができなかった。
線形設定における問題を最適に解くことができるMILP(mixed-integer-linear-gramming)の定式化について述べる。
実現可能で,実証的にも良好に機能する新規な代理損失関数を提供する。
論文 参考訳(メタデータ) (2023-01-15T21:57:36Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Learning to Defer to Multiple Experts: Consistent Surrogate Losses,
Confidence Calibration, and Conformal Ensembles [0.966840768820136]
本研究は,L2D(L2D)を複数の専門家に委譲する学習の統計的特性について考察する。
我々は、一貫したサロゲート損失、信頼性校正、および専門家の原則的なアンサンブルを導出するオープンな問題に対処する。
論文 参考訳(メタデータ) (2022-10-30T21:27:29Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。