論文の概要: Classification Under Ambiguity: When Is Average-K Better Than Top-K?
- arxiv url: http://arxiv.org/abs/2112.08851v1
- Date: Thu, 16 Dec 2021 12:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 13:43:03.118695
- Title: Classification Under Ambiguity: When Is Average-K Better Than Top-K?
- Title(参考訳): 曖昧さの下の分類:平均KはトップKよりいつ良いか?
- Authors: Titouan Lorieul, Alexis Joly and Dennis Shasha
- Abstract要約: トップ$K$分類と呼ばれる一般的な選択肢は、ある番号の$K$を選択し、最高スコアの$K$ラベルを返すことである。
本稿では,平均$K$分類が固定上位$K$分類よりも低い誤差率が得られる場合の曖昧性プロファイルを公式に特徴付ける。
- 参考スコア(独自算出の注目度): 1.7156052308952854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When many labels are possible, choosing a single one can lead to low
precision. A common alternative, referred to as top-$K$ classification, is to
choose some number $K$ (commonly around 5) and to return the $K$ labels with
the highest scores. Unfortunately, for unambiguous cases, $K>1$ is too many
and, for very ambiguous cases, $K \leq 5$ (for example) can be too small. An
alternative sensible strategy is to use an adaptive approach in which the
number of labels returned varies as a function of the computed ambiguity, but
must average to some particular $K$ over all the samples. We denote this
alternative average-$K$ classification. This paper formally characterizes the
ambiguity profile when average-$K$ classification can achieve a lower error
rate than a fixed top-$K$ classification. Moreover, it provides natural
estimation procedures for both the fixed-size and the adaptive classifier and
proves their consistency. Finally, it reports experiments on real-world image
data sets revealing the benefit of average-$K$ classification over top-$K$ in
practice. Overall, when the ambiguity is known precisely, average-$K$ is never
worse than top-$K$, and, in our experiments, when it is estimated, this also
holds.
- Abstract(参考訳): 多くのラベルが可能であれば、単一のラベルを選択することで精度が低下する可能性がある。
一般的な選択肢として、トップ$K$分類(top-$K$ classification)があり、ある番号(通常5ドル前後)を選択し、最高スコアの$K$ラベルを返す。
残念ながら、あいまいなケースでは、$k>1$は多すぎ、非常にあいまいなケースでは、$k \leq 5$(例えば)は小さすぎる可能性がある。
もう一つの合理的な戦略は、計算されたあいまいさの関数として返されるラベルの数が異なる適応的なアプローチを使用することであるが、平均は全てのサンプルに対して特定の$K$にしなければならない。
我々はこの別の平均-$k$分類を示す。
本稿では,平均$K$分類が固定上位$K$分類よりも低い誤差率が得られる場合の曖昧性プロファイルを公式に特徴付ける。
さらに、固定サイズと適応分類器の両方に対する自然な推定手順を提供し、それらの一貫性を証明する。
最後に、実世界の画像データセットに関する実験を報告し、実際トップ$k$よりも平均$k$の分類の利点を明らかにした。
全体として、あいまいさが正確に知られている場合、平均$k$はトップ$k$よりも悪くはない。
関連論文リスト
- Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Naive Bayes Classifiers and One-hot Encoding of Categorical Variables [4.5053219193867395]
本稿では,1ホット符号化による$K$値のカテゴリ変数を誤って$K$ビットとして符号化した結果について検討する。
これにより、正しい分類的Na"ive Bayes分類器ではなく、ベルヌーリス積 (PoB) の仮定が生まれる。
論文 参考訳(メタデータ) (2024-04-28T14:04:58Z) - One-Bit Quantization and Sparsification for Multiclass Linear
Classification via Regularized Regression [20.710343135282116]
最高の分類は、$f(cdot) = |cdot|2$ と $lambda to infty$ によって達成されることを示す。
f(cdot) = |cdot|_infty$ とほぼ同等に機能するスパースと1ビットの解を見つけることは、大きめの $lambda$ regime においてしばしば可能である。
論文 参考訳(メタデータ) (2024-02-16T06:39:40Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Repeated Observations for Classification [0.2676349883103404]
繰り返し観測を行った結果,非パラメトリック分類の問題について検討した。
本分析では, 名目密度によるロバスト検出, プロトタイプ分類, 線形変換, 線形分類, スケーリングなどのモデルについて検討する。
論文 参考訳(メタデータ) (2023-07-19T10:50:36Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Prevalence Threshold and bounds in the Accuracy of Binary Classification
Systems [0.0]
完全精度1に対して、正の精度閾値(phi_e$)は、精度-精度曲線における最大曲率の臨界点であることを示す。
応用は多いが、ここで議論されている考え方は、計算複雑性理論、人工知能、医療スクリーニングなどで用いられる。
論文 参考訳(メタデータ) (2021-12-25T21:22:32Z) - Almost Tight L0-norm Certified Robustness of Top-k Predictions against
Adversarial Perturbations [78.23408201652984]
トップk予測は、マシンラーニング・アズ・ア・サービス、レコメンダ・システム、Web検索など、多くの現実世界のアプリケーションで使用されている。
我々の研究はランダム化平滑化に基づいており、入力をランダム化することで、証明可能なロバストな分類器を構築する。
例えば、攻撃者がテスト画像の5ピクセルを任意に摂動できる場合に、ImageNet上で69.2%の認定トップ3精度を達成する分類器を構築することができる。
論文 参考訳(メタデータ) (2020-11-15T21:34:44Z) - Binary classification with ambiguous training data [69.50862982117127]
教師付き学習では、ドメインの専門家でさえラベル付けが難しい曖昧な(A)サンプルに直面します。
この問題は、ラベルなしサンプルが必ずしも難しいサンプルではないため、半教師付き学習とは大きく異なる。
論文 参考訳(メタデータ) (2020-11-05T00:53:58Z) - A Multiclass Classification Approach to Label Ranking [2.6905021039717987]
マルチクラスの分類において、目標は、$mathcalY=1,; ldots,; K $ with $Kgeq 3$で値を値するランダムラベル$Y$の予測方法を学ぶことである。
本稿では,多クラス分類と後続確率推定の中間点である,この統計的学習問題の解析に焦点をあてる。
論文 参考訳(メタデータ) (2020-02-21T17:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。