論文の概要: PACMAN: PAC-style bounds accounting for the Mismatch between Accuracy
and Negative log-loss
- arxiv url: http://arxiv.org/abs/2112.05547v1
- Date: Fri, 10 Dec 2021 14:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:10:36.955614
- Title: PACMAN: PAC-style bounds accounting for the Mismatch between Accuracy
and Negative log-loss
- Title(参考訳): pacman:pacスタイルの境界は正確性と負のログロスのミスマッチを説明する
- Authors: Matias Vera, Leonardo Rey Vega and Pablo Piantanida
- Abstract要約: 分類タスクに対する機械学習アルゴリズムの最終的な性能は通常、テストデータセットに基づく経験的エラー確率(または精度)の観点から測定される。
分類タスクの場合、この損失関数はよく知られたクロスエントロピーリスクにつながる負のログロスである。
本稿では, 検定のミスマッチを考慮した一般化ギャップに対するポイントワイズPACに基づく分析と, 負のログロスによるトレーニングを提案する。
- 参考スコア(独自算出の注目度): 28.166066663983674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ultimate performance of machine learning algorithms for classification
tasks is usually measured in terms of the empirical error probability (or
accuracy) based on a testing dataset. Whereas, these algorithms are optimized
through the minimization of a typically different--more convenient--loss
function based on a training set. For classification tasks, this loss function
is often the negative log-loss that leads to the well-known cross-entropy risk
which is typically better behaved (from a numerical perspective) than the error
probability. Conventional studies on the generalization error do not usually
take into account the underlying mismatch between losses at training and
testing phases. In this work, we introduce an analysis based on point-wise PAC
approach over the generalization gap considering the mismatch of testing based
on the accuracy metric and training on the negative log-loss. We label this
analysis PACMAN. Building on the fact that the mentioned mismatch can be
written as a likelihood ratio, concentration inequalities can be used to
provide some insights for the generalization problem in terms of some
point-wise PAC bounds depending on some meaningful information-theoretic
quantities. An analysis of the obtained bounds and a comparison with available
results in the literature are also provided.
- Abstract(参考訳): 分類タスクのための機械学習アルゴリズムの最終的な性能は通常、テストデータセットに基づいて経験的エラー確率(または精度)で測定される。
一方、これらのアルゴリズムはトレーニングセットに基づいたより便利なロス関数を最小化することで最適化される。
分類タスクでは、この損失関数は、よく知られたクロスエントロピーリスクにつながる負のログロスであり、一般的に(数値的な観点から)エラー確率よりも振舞いがよい。
一般化誤差に関する従来の研究は、通常、トレーニングにおける損失とテストフェーズの間の根本的なミスマッチを考慮に入れない。
本研究では,精度指標に基づくテストのミスマッチと負のログロスのトレーニングを考慮した一般化ギャップに対するポイントワイズpacアプローチに基づく分析を提案する。
私たちはこの分析をPACMANとラベル付けします。
上記のミスマッチが可能性比として記述できるという事実に基づいて、集中不等式は、ある意味のある情報理論量に依存するポイントワイドPAC境界の観点から一般化問題に対するいくつかの洞察を与えることができる。
また、得られたバウンダリの分析と、文献で利用可能な結果との比較も提供する。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Error Exponent in Agnostic PAC Learning [4.772817128620037]
おそらく略正解(PAC)は、学習問題やアルゴリズムの分析に広く用いられている。
本稿では,情報理論における誤り指数を用いたPAC学習について考察する。
いくつかの仮定では、幅広い問題に対する分散依存誤差指数の改善が見られ、学習におけるPAC誤差確率の指数的挙動が確立される。
論文 参考訳(メタデータ) (2024-05-01T18:08:03Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - On Leave-One-Out Conditional Mutual Information For Generalization [122.2734338600665]
残余条件付き相互情報(loo-CMI)の新しい尺度に基づく教師付き学習アルゴリズムのための情報理論の一般化境界を導出する。
他のCMI境界とは対照的に、我々のloo-CMI境界は容易に計算でき、古典的なout-out-out-cross-validationのような他の概念と関連して解釈できる。
ディープラーニングのシナリオにおいて予測された一般化ギャップを評価することにより,境界の質を実証的に検証する。
論文 参考訳(メタデータ) (2022-07-01T17:58:29Z) - Controlling Multiple Errors Simultaneously with a PAC-Bayes Bound [21.273964864852612]
M型エラーの集合の経験的確率と真確率の間のKulback-Leibler分散をバウンダリングすることで、リッチな情報を提供することができる最初のPAC-Bayes境界を提供する。
我々の境界は、異なる誤分類の重大さが時間とともに変化する可能性がある場合に特に有用である。
論文 参考訳(メタデータ) (2022-02-11T11:35:21Z) - Rethinking and Reweighting the Univariate Losses for Multi-Label
Ranking: Consistency and Generalization [44.73295800450414]
(部分)ランキング損失は、マルチラベル分類の一般的な評価尺度です。
既存の理論と実践の間にはギャップがある -- ペアワイズな損失は有望なパフォーマンスをもたらすが一貫性を欠く可能性がある。
論文 参考訳(メタデータ) (2021-05-10T09:23:27Z) - Learning by Minimizing the Sum of Ranked Range [58.24935359348289]
本稿では,学習目標を定式化するための一般的なアプローチとして,ランキング範囲(SoRR)の和を紹介した。
ランク付き範囲は、実数の集合のソートされた値の連続的なシーケンスである。
我々は,SoRRフレームワークの最小化のための機械学習における2つの応用,すなわち,バイナリ分類のためのAoRR集約損失とマルチラベル/マルチクラス分類のためのTKML個人損失について検討する。
論文 参考訳(メタデータ) (2020-10-05T01:58:32Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Information-theoretic analysis for transfer learning [5.081241420920605]
本稿では,一般化誤差と転帰学習アルゴリズムの過大なリスクに関する情報理論解析を行う。
我々の結果は、おそらく予想通り、Kulback-Leiblerの発散$D(mu||mu')$が一般化誤差を特徴づける重要な役割を果たすことを示唆している。
論文 参考訳(メタデータ) (2020-05-18T13:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。