論文の概要: Gradient-Weight Alignment as a Train-Time Proxy for Generalization in Classification Tasks
- arxiv url: http://arxiv.org/abs/2510.25480v1
- Date: Wed, 29 Oct 2025 13:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.581741
- Title: Gradient-Weight Alignment as a Train-Time Proxy for Generalization in Classification Tasks
- Title(参考訳): 種別タスクの一般化のための列車時間プロキシとしての勾配ウェイトアライメント
- Authors: Florian A. Hölzl, Daniel Rueckert, Georgios Kaissis,
- Abstract要約: サンプルごとの勾配とモデル重みのコヒーレンスを定量化するグラディエント・ウェイト・アライメント(GWA)を導入する。
実効学習はコヒーレントなアライメントに対応し,不適応は一般化の劣化を示す。
実験により、GWAは最適な早期停止を正確に予測し、モデルの比較を原則とし、影響のあるトレーニングサンプルを特定する。
- 参考スコア(独自算出の注目度): 32.61771956544867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust validation metrics remain essential in contemporary deep learning, not only to detect overfitting and poor generalization, but also to monitor training dynamics. In the supervised classification setting, we investigate whether interactions between training data and model weights can yield such a metric that both tracks generalization during training and attributes performance to individual training samples. We introduce Gradient-Weight Alignment (GWA), quantifying the coherence between per-sample gradients and model weights. We show that effective learning corresponds to coherent alignment, while misalignment indicates deteriorating generalization. GWA is efficiently computable during training and reflects both sample-specific contributions and dataset-wide learning dynamics. Extensive experiments show that GWA accurately predicts optimal early stopping, enables principled model comparisons, and identifies influential training samples, providing a validation-set-free approach for model analysis directly from the training data.
- Abstract(参考訳): ロバスト検証のメトリクスは、オーバーフィットや一般化の貧弱さを検知するだけでなく、トレーニングのダイナミクスを監視するためにも、現代的なディープラーニングにおいて不可欠である。
教師付き分類設定では、トレーニングデータとモデルウェイト間の相互作用が、トレーニング中の一般化をトラックし、個々のトレーニングサンプルに属性性能を付与する指標となるかを検討する。
サンプルごとの勾配とモデル重みのコヒーレンスを定量化するグラディエント・ウェイト・アライメント(GWA)を導入する。
実効学習はコヒーレントなアライメントに対応し,不適応は一般化の劣化を示す。
GWAは、トレーニング中に効率的に計算可能であり、サンプル固有のコントリビューションとデータセット全体の学習ダイナミクスの両方を反映する。
実験により, GWAは最適な早期停止を正確に予測し, モデル比較を可能にし, 影響のあるトレーニングサンプルを同定し, トレーニングデータから直接モデル解析を行うための検証セットのないアプローチを提供する。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Relating Regularization and Generalization through the Intrinsic
Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。
また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文 参考訳(メタデータ) (2022-11-23T19:00:00Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。