論文の概要: A Link between Coding Theory and Cross-Validation with Applications
- arxiv url: http://arxiv.org/abs/2103.11856v3
- Date: Fri, 9 Feb 2024 09:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 21:29:27.727936
- Title: A Link between Coding Theory and Cross-Validation with Applications
- Title(参考訳): 符号化理論とクロスバリデーションの関連とその応用
- Authors: Tapio Pahikkala, Parisa Movahedi, Ileana Montoya, Havu Miikonen,
Stephan Foldes, Antti Airola, Laszlo Major
- Abstract要約: 正確な解答は誤り検出符号の理論によって与えられることを示す。
即時的な応用として,学習アルゴリズムのための新しいLPOCVベースのランダム化テストを開発した。
- 参考スコア(独自算出の注目度): 2.287027904771153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How many different binary classification problems a single learning algorithm
can solve on a fixed data with exactly zero or at most a given number of
cross-validation errors? While the number in the former case is known to be
limited by the no-free-lunch theorem, we show that the exact answers are given
by the theory of error detecting codes. As a case study, we focus on the AUC
performance measure and leave-pair-out cross-validation (LPOCV), in which every
possible pair of data with different class labels is held out at a time. We
show that the maximal number of classification problems with fixed class
proportion, for which a learning algorithm can achieve zero LPOCV error, equals
the maximal number of code words in a constant weight code (CWC), with certain
technical properties. We then generalize CWCs by introducing light CWCs, and
prove an analogous result for nonzero LPOCV errors and light CWCs. Moreover, we
prove both upper and lower bounds on the maximal numbers of code words in light
CWCs. Finally, as an immediate practical application, we develop new LPOCV
based randomization tests for learning algorithms that generalize the classical
Wilcoxon-Mann-Whitney U test.
- Abstract(参考訳): 1つの学習アルゴリズムが、正確にゼロまたは最も多く与えられたクロスバリデーションエラーを持つ固定データに対して、何つの異なるバイナリ分類問題を解くことができるのか?
前者の場合の数はno-free-lunch定理によって制限されていることが知られているが、正確な答えは誤り検出符号の理論によって与えられる。
ケーススタディでは、AUCのパフォーマンス測定と、異なるクラスラベルを持つすべての可能なデータを同時に保持するLPOCV(Left-pair-out Cross-validation)に焦点を当てる。
学習アルゴリズムがゼロのLPOCV誤差を達成できる固定クラス比を持つ分類問題の最大個数は、一定重み付き符号(CWC)におけるコードワードの最大個数と一定の技術的特性で等しいことを示す。
次に、CWCを光CWCを導入して一般化し、非ゼロのLPOCV誤差と光CWCに類似した結果を示す。
さらに、光cwcにおける符号語の最大数上の上限と下限の両方を証明する。
最後に,従来のWilcoxon-Mann-Whitney U 試験を一般化する学習アルゴリズムのための LPOCV ベースの新しいランダム化テストを開発した。
関連論文リスト
- Limits to classification performance by relating Kullback-Leibler
divergence to Cohen's Kappa [0.0]
理論と手法は詳細に議論され、モンテカルロのデータと実際のデータセットに適用される。
いずれの場合も、この分析は、2つのクラスに対する基礎となる確率密度関数のために、アルゴリズムがこれ以上良い性能を発揮できなかったことを示している。
論文 参考訳(メタデータ) (2024-03-03T17:36:42Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - Error-rate-agnostic decoding of topological stabilizer codes [0.0]
我々は、位相フリップとビットフリップの相対確率というバイアスに依存するデコーダを開発するが、誤差率には依存しない。
我々のデコーダは、与えられたシンドロームの同値類における最も可能性の高いエラー連鎖の数と有効重みを数えることに基づいている。
論文 参考訳(メタデータ) (2021-12-03T15:45:12Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Ensemble Learning using Error Correcting Output Codes: New
Classification Error Bounds [2.0242396022517752]
本稿では,機械学習における誤り訂正出力コード (ECOC) の分類誤り率の新たな境界について述べる。
これらの境界は、コードワード長に関して指数関数的な減衰複雑性を持ち、ECOCアプローチの有効性を理論的に検証する。
論文 参考訳(メタデータ) (2021-09-18T16:47:57Z) - CCMN: A General Framework for Learning with Class-Conditional
Multi-Label Noise [40.46921277898713]
クラス条件ノイズは一般的に機械学習タスクに存在し、クラスラベルは基底値に応じて確率で破壊される。
本稿では,この問題をCCMN(Class-Conditional Multi-label Noise)を用いた学習の一般的な枠組みとして形式化する。
我々は,ccmn問題を解くための誤差境界を持つ2つの非バイアス推定器を確立し,これらが一般的なマルチラベル損失関数と一致することを証明した。
論文 参考訳(メタデータ) (2021-05-16T03:24:15Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。