論文の概要: Orthogonal Gradient Descent Improves Neural Calibration
- arxiv url: http://arxiv.org/abs/2506.04487v2
- Date: Sat, 28 Jun 2025 16:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.547939
- Title: Orthogonal Gradient Descent Improves Neural Calibration
- Title(参考訳): 直交グラディエントDescentは神経の校正を改善する
- Authors: C. Evans Hedges,
- Abstract要約: OnAR-10には10%のラベル付きデータがあり、$perp$Gradは精度でSGDと一致するが、キャリブレーションの指標は一貫して改善されている。
これらの利点は、入力破損(CIFAR-10C)と拡張トレーニングの下で継続され、$perp$GradモデルはSGDで訓練されたモデルよりも優雅に分解される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide evidence that orthogonalizing gradients during training improves model calibration without sacrificing accuracy. On CIFAR-10 with 10\% labeled data, $\perp$Grad matches SGD in accuracy but yields consistently improved calibration metrics such as lower test loss, reduced softmax overconfidence, and higher predictive entropy. These benefits persist under input corruption (CIFAR-10C) and extended training, where $\perp$Grad models degrade more gracefully than SGD-trained counterparts. $\perp$Grad is optimizer-agnostic, incurs minimal overhead, and works well with post-hoc calibration techniques like temperature scaling. Theoretically, we prove convergence of a simplified version of $\perp$Grad under mild assumptions and characterize its stationary points in positive homogeneous networks: $\perp$Grad converges to solutions where further loss reduction requires confidence scaling rather than decision boundary improvement. Code for this paper can be found at: https://github.com/evanshedges2/orthograd\_improves\_calibration.
- Abstract(参考訳): トレーニング中の直交勾配が精度を犠牲にすることなくモデル校正を改善することを示す。
10\%のラベル付きデータを持つCIFAR-10では、$\perp$Gradは精度でSGDと一致するが、テスト損失の低減、ソフトマックスの過信の低減、予測エントロピーの向上といったキャリブレーションの指標を一貫して改善する。
これらの利点は入力汚職(CIFAR-10C)と拡張トレーニングの下で継続され、$\perp$GradモデルはSGDで訓練されたモデルよりも優雅に分解される。
$\perp$Gradはオプティマイザに依存しず、最小限のオーバーヘッドを発生させ、温度スケーリングのようなポストホックキャリブレーション技術とうまく連携する。
理論的には、穏やかな仮定の下で$\perp$Gradの簡易バージョンが収束することを証明し、正の同次ネットワークにおける定常点を特徴付ける:$\perp$Gradは、さらなる損失低減が決定境界改善よりも信頼性スケーリングを必要とする解に収束する。
この論文のコードは、https://github.com/evanshedges2/orthograd\_improves\_calibration.comで見ることができる。
関連論文リスト
- Theoretical Framework for Tempered Fractional Gradient Descent: Application to Breast Cancer Classification [0.0]
本稿では,分数計算と指数的テンパリングを併用し,勾配に基づく学習を向上する新しい最適化フレームワークTFGDを紹介する。
TFGD は、履歴勾配を分数係数 $|w_j| = binomalphaj$ で重み付けし、テンパリングパラメータ $lambda$ で指数関数的に減衰するテンパリングメモリ機構を組み込むことで制限に対処する。
乳がんデータセットにおける実証的検証は、TFGDの優位性を示し、98.25%のテスト精度(vs.92.11%のSGD)と2$times$高速収束を達成した。
論文 参考訳(メタデータ) (2025-04-26T08:26:34Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Feature Clipping for Uncertainty Calibration [24.465567005078135]
現代のディープニューラルネットワーク(DNN)は、しばしば過剰な自信に悩まされ、誤校正につながる。
この問題に対処するために,特徴クリッピング(FC)と呼ばれるポストホックキャリブレーション手法を提案する。
FCは特定の閾値に特徴値をクリップし、高い校正誤差サンプルのエントロピーを効果的に増加させる。
論文 参考訳(メタデータ) (2024-10-16T06:44:35Z) - Novel Gradient Sparsification Algorithm via Bayesian Inference [27.246907664193156]
本稿では,誤り蓄積の学習速度スケーリングを制御する,正規化Top-$k$(RegTop-$k$)と呼ばれる新しいスペーシフィケーションアルゴリズムを提案する。
CIFAR-10のResNet-18による数値実験では、RegTop-$k$は標準のTop-$k$よりも8%高い精度で達成されている。
論文 参考訳(メタデータ) (2024-09-23T10:42:34Z) - Orthogonal Causal Calibration [55.28164682911196]
我々は、因果校正作業を標準(非因果予測モデル)の校正作業に還元する一般的なアルゴリズムを開発する。
以上の結果から,既存のキャリブレーションアルゴリズムを因果的設定に応用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-04T03:35:25Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - AdaFocal: Calibration-aware Adaptive Focal Loss [8.998525155518836]
焦点損失のあるトレーニングは、クロスエントロピーよりもキャリブレーションが優れている。
AdaFocal と呼ばれる適応型焦点損失を校正する手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T20:19:24Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - A Closer Look at the Calibration of Differentially Private Learners [33.715727551832785]
差分プライベート降下勾配(DP-SGD)を訓練した分類器の校正について検討する。
本分析では,DP-SGDの勾配クリッピングを誤校正の原因として同定した。
温度スケーリングやプラットスケーリングといった後処理キャリブレーション手法の個人差が驚くほど有効であることを示す。
論文 参考訳(メタデータ) (2022-10-15T10:16:18Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - When are Iterative Gaussian Processes Reliably Accurate? [38.523693700243975]
ランツォス分解は高度に正確な点予測を伴うスケーラブルなガウス過程推論を達成している。
CG耐性,プレコンディショナーランク,およびLaczos分解ランクについて検討した。
本稿では,LGS-BFB が反復型 GP にとって魅力的であり,より少ない更新で収束を達成することを示す。
論文 参考訳(メタデータ) (2021-12-31T00:02:18Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Parameterized Temperature Scaling for Boosting the Expressive Power in
Post-Hoc Uncertainty Calibration [57.568461777747515]
我々は新しいキャリブレーション手法であるパラメタライズド温度スケーリング(PTS)を導入する。
最新のポストホックキャリブレータの精度保持性能は、その本質的な表現力によって制限されることを実証します。
当社の新しい精度保存手法が,多数のモデルアーキテクチャやデータセット,メトリクスにおいて,既存のアルゴリズムを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-24T10:18:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。