論文の概要: The Lie of the Average: How Class Incremental Learning Evaluation Deceives You?
- arxiv url: http://arxiv.org/abs/2509.22580v1
- Date: Fri, 26 Sep 2025 17:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.60167
- Title: The Lie of the Average: How Class Incremental Learning Evaluation Deceives You?
- Title(参考訳): 平均の嘘: 授業インクリメンタル・ラーニング・アセスメントはどのようにあなたを欺くか?
- Authors: Guannan Lai, Da-Wei Zhou, Xin Yang, Han-Jia Ye,
- Abstract要約: クラスインクリメンタルラーニング(CIL)では、モデルが学習済みのクラスを忘れずに、新しいクラスを継続的に学習する必要がある。
我々は、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきであると論じる。
我々は,タスク間類似度を用いて,極端なクラスシーケンスを適応的に識別し,サンプリングする評価プロトコルEDGEを提案する。
- 参考スコア(独自算出の注目度): 48.83567710215299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class Incremental Learning (CIL) requires models to continuously learn new classes without forgetting previously learned ones, while maintaining stable performance across all possible class sequences. In real-world settings, the order in which classes arrive is diverse and unpredictable, and model performance can vary substantially across different sequences. Yet mainstream evaluation protocols calculate mean and variance from only a small set of randomly sampled sequences. Our theoretical analysis and empirical results demonstrate that this sampling strategy fails to capture the full performance range, resulting in biased mean estimates and a severe underestimation of the true variance in the performance distribution. We therefore contend that a robust CIL evaluation protocol should accurately characterize and estimate the entire performance distribution. To this end, we introduce the concept of extreme sequences and provide theoretical justification for their crucial role in the reliable evaluation of CIL. Moreover, we observe a consistent positive correlation between inter-task similarity and model performance, a relation that can be leveraged to guide the search for extreme sequences. Building on these insights, we propose EDGE (Extreme case-based Distribution and Generalization Evaluation), an evaluation protocol that adaptively identifies and samples extreme class sequences using inter-task similarity, offering a closer approximation of the ground-truth performance distribution. Extensive experiments demonstrate that EDGE effectively captures performance extremes and yields more accurate estimates of distributional boundaries, providing actionable insights for model selection and robustness checking. Our code is available at https://github.com/AIGNLAI/EDGE.
- Abstract(参考訳): クラスインクリメンタルラーニング(Class Incremental Learning, CIL)は、学習済みのクラスを忘れずに、新しいクラスを継続的に学習するモデルである。
実世界の設定では、クラスが到着する順序は多様で予測不可能であり、モデルの性能は異なるシーケンスで大きく異なる。
しかし、主流評価プロトコルは、ランダムにサンプリングされた少数の配列から平均と分散を計算する。
我々の理論解析と実験結果から,このサンプリング手法は完全な性能範囲を捉えることができず,偏りのある平均推定値と性能分布の真のばらつきを過小評価する結果が得られた。
したがって、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきである。
この目的のために, 極端列の概念を導入し, CILの信頼性評価において重要な役割を理論的に正当化する。
さらに,タスク間の類似性とモデル性能との間には,一貫した正の相関関係が観察される。
これらの知見に基づいて, EDGE (Extreme case-based Distribution and Generalization Evaluation) を提案する。
大規模な実験では、EDGEが性能の極端を効果的に捉え、より正確な分布境界の推定値が得られることを示し、モデル選択とロバストネスチェックのための実用的な洞察を提供する。
私たちのコードはhttps://github.com/AIGNLAI/EDGE.comで公開されています。
関連論文リスト
- Rethinking the generalization of drug target affinity prediction algorithms via similarity aware evaluation [19.145735532822012]
従来の評価におけるテストセットの正準ランダム化分割は、トレーニングセットと高い類似性を持つサンプルに支配されるテストセットを残していることを示す。
本稿では,任意の分布に適応する新しい分割手法を提案する類似性意識評価の枠組みを提案する。
結果は,提案手法が望ましい分布に適合し,モデルの開発を導くことを実証した。
論文 参考訳(メタデータ) (2025-04-13T08:30:57Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。
フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Modeling Score Distributions and Continuous Covariates: A Bayesian
Approach [8.772459063453285]
連続共変量に対するマッチングと非マッチスコア分布の生成モデルを構築した。
混合モデルを用いて任意の分布と局所基底関数をキャプチャする。
提案手法の精度と有効性を示す3つの実験を行った。
論文 参考訳(メタデータ) (2020-09-21T02:41:20Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。