論文の概要: Beyond the Loss Curve: Scaling Laws, Active Learning, and the Limits of Learning from Exact Posteriors
- arxiv url: http://arxiv.org/abs/2602.00315v1
- Date: Fri, 30 Jan 2026 21:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.113933
- Title: Beyond the Loss Curve: Scaling Laws, Active Learning, and the Limits of Learning from Exact Posteriors
- Title(参考訳): 損失曲線を超えて: スケーリング法則、アクティブラーニング、および厳密な後生からの学習の限界
- Authors: Arian Khorasani, Nathaniel Chen, Yug D Oswal, Akshat Santhana Gopalan, Egemen Kolemen, Ravid Shwartz-Ziv,
- Abstract要約: 実写画像で正確な後部を抽出可能なオラクルとして,クラス条件正規化フローを用いる。
我々のフレームワークは、標準メトリクスが進行中の学習を隠蔽し、アーキテクチャの違いを隠蔽し、分散シフトの性質を診断できないことを明らかにしている。
- 参考スコア(独自算出の注目度): 8.410613979416203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How close are neural networks to the best they could possibly do? Standard benchmarks cannot answer this because they lack access to the true posterior p(y|x). We use class-conditional normalizing flows as oracles that make exact posteriors tractable on realistic images (AFHQ, ImageNet). This enables five lines of investigation. Scaling laws: Prediction error decomposes into irreducible aleatoric uncertainty and reducible epistemic error; the epistemic component follows a power law in dataset size, continuing to shrink even when total loss plateaus. Limits of learning: The aleatoric floor is exactly measurable, and architectures differ markedly in how they approach it: ResNets exhibit clean power-law scaling while Vision Transformers stall in low-data regimes. Soft labels: Oracle posteriors contain learnable structure beyond class labels: training with exact posteriors outperforms hard labels and yields near-perfect calibration. Distribution shift: The oracle computes exact KL divergence of controlled perturbations, revealing that shift type matters more than shift magnitude: class imbalance barely affects accuracy at divergence values where input noise causes catastrophic degradation. Active learning: Exact epistemic uncertainty distinguishes genuinely informative samples from inherently ambiguous ones, improving sample efficiency. Our framework reveals that standard metrics hide ongoing learning, mask architectural differences, and cannot diagnose the nature of distribution shift.
- Abstract(参考訳): ニューラルネットワークは、できる限り最も近いものなのだろうか?
標準ベンチマークでは、真の後続 p(y|x) にアクセスできないため、これに答えることができない。
我々は,実写画像(AFHQ, ImageNet)で正確な後部を抽出可能なオラクルとして,クラス条件正規化フローを使用する。
これにより5行の捜査が可能となる。
スケーリング法則:予測誤差は、既約アレタリック不確かさと再生可能なてんかんの誤りに分解される。
学習の限界: アレタリックフロアは正確に測定可能であり、アーキテクチャはアプローチ方法に大きく異なっています。 ResNetはクリーンなパワールールのスケーリングを示し、Vision Transformersは低データ体制で行き詰まります。
ソフトラベル: Oracleの後方には、クラスラベル以外の学習可能な構造が含まれている。
分布シフト: オラクルは制御された摂動の正確なKL分散を計算し、シフトタイプがシフトサイズ以上であることを明らかにした: クラス不均衡は入力ノイズが破滅的な劣化を引き起こす分岐値の精度にほとんど影響を与えない。
アクティブラーニング(Active Learning): 特定のてんかんの不確実性は、真に情報に富むサンプルと本質的に曖昧なサンプルを区別し、サンプル効率を向上する。
我々のフレームワークは、標準メトリクスが進行中の学習を隠蔽し、アーキテクチャの違いを隠蔽し、分散シフトの性質を診断できないことを明らかにしている。
関連論文リスト
- A Model of Artificial Jagged Intelligence [0.0]
生成AIシステムは、近くに現れるタスク間で非常に不均一なパフォーマンスを示すことが多い」。
我々はこの現象を人工ジャグインテリジェンス(AJI)と呼ぶ。
本稿では,情報問題として採用を取り扱うAJIの魅力ある経済モデルを開発する。
論文 参考訳(メタデータ) (2026-01-12T14:27:30Z) - Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry [5.1511135538176]
アクティブラーニング(AL)は、情報的なサンプルを優先順位付けすることでアノテーションのコストを削減することを約束するが、ラベルがうるさい場合やデータ分散がシフトした場合、その信頼性は低下する。
本稿では,深層ネットワークの創発的幾何学的規則性を活用し,信頼できない監視に対処するフレームワークである能動学習(NCAL-R)を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:50:31Z) - Guess-and-Learn (G&L): Measuring the Cumulative Error Cost of Cold-Start Adaptation [0.11102988539107704]
機械学習モデルの評価は、スクラッチから学習中に発生する累積誤差の適応コストを見越して、最終的な精度を強調するのが一般的である。
Guess-and- Learn (G&L) v1.0は、コールドスタート適応性を測定することで、このギャップに対処する。
論文 参考訳(メタデータ) (2025-08-29T00:13:02Z) - Practical estimation of the optimal classification error with soft labels and calibration [47.001801756596926]
我々は,ベイズ誤差,最適誤差率を推定するために,ソフトラベルを用いた以前の研究を拡張した。
我々は、破損したソフトラベルによる推定という、より困難な問題に取り組みます。
私たちのメソッドはインスタンスフリーです。つまり、入力インスタンスへのアクセスを前提としません。
論文 参考訳(メタデータ) (2025-05-27T06:04:57Z) - Dirichlet-Based Prediction Calibration for Learning with Noisy Labels [40.78497779769083]
雑音ラベルによる学習はディープニューラルネットワーク(DNN)の一般化性能を著しく損なう
既存のアプローチでは、損失補正やサンプル選択手法によってこの問題に対処している。
そこで我々は,textitDirichlet-based Prediction (DPC) 法を解法として提案する。
論文 参考訳(メタデータ) (2024-01-13T12:33:04Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Understanding Square Loss in Training Overparametrized Neural Network
Classifiers [31.319145959402462]
過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
論文 参考訳(メタデータ) (2021-12-07T12:12:30Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。