論文の概要: An accurate flatness measure to estimate the generalization performance of CNN models
- arxiv url: http://arxiv.org/abs/2603.09016v1
- Date: Mon, 09 Mar 2026 23:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.893017
- Title: An accurate flatness measure to estimate the generalization performance of CNN models
- Title(参考訳): CNNモデルの一般化性能を推定するための正確な平坦度尺度
- Authors: Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti,
- Abstract要約: 我々は,CNNの広範かつ実践的なクラスに対して,正確かつアーキテクチャ的に忠実な平坦度尺度を開発する。
その結果,提案手法はCNNモデルの一般化を評価・比較するためのツールとして有効であることが示唆された。
- 参考スコア(独自算出の注目度): 2.867517731896504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flatness measures based on the spectrum or the trace of the Hessian of the loss are widely used as proxies for the generalization ability of deep networks. However, most existing definitions are either tailored to fully connected architectures, relying on stochastic estimators of the Hessian trace, or ignore the specific geometric structure of modern Convolutional Neural Networks (CNNs). In this work, we develop a flatness measure that is both exact and architecturally faithful for a broad and practically relevant class of CNNs. We first derive a closed-form expression for the trace of the Hessian of the cross-entropy loss with respect to convolutional kernels in networks that use global average pooling followed by a linear classifier. Building on this result, we then specialize the notion of relative flatness to convolutional layers and obtain a parameterization-aware flatness measure that properly accounts for the scaling symmetries and filter interactions induced by convolution and pooling. Finally, we empirically investigate the proposed measure on families of CNNs trained on standard image-classification benchmarks. The results obtained suggest that the proposed measure can serve as a robust tool to assess and compare the generalization performance of CNN models, and to guide the design of architecture and training choices in practice.
- Abstract(参考訳): 損失のスペクトルやヘッセンの痕跡に基づく平坦度測定は、ディープネットワークの一般化能力のプロキシとして広く利用されている。
しかし、既存のほとんどの定義は、完全に接続されたアーキテクチャに適合し、ヘッセントレースの確率的推定器に依存するか、現代の畳み込みニューラルネットワーク(CNN)の特定の幾何学的構造を無視している。
本研究では,CNNの広範かつ実践的なクラスに対して,正確かつアーキテクチャ的に忠実な平坦度尺度を開発する。
まず,大域平均プーリングと線形分類器を用いたネットワークにおける畳み込みカーネルに対して,クロスエントロピー損失のヘシアン跡の閉形式式を導出する。
この結果に基づいて、畳み込み層に対する相対平坦性の概念を専門化し、畳み込みとプールによって引き起こされるスケーリング対称性とフィルタ相互作用を適切に考慮したパラメータ化対応平坦性尺度を得る。
最後に、標準画像分類ベンチマークに基づいて訓練されたCNNの家族に対する提案手法を実証的に検討する。
その結果,提案手法は,CNNモデルの一般化性能を評価し,比較し,建築設計や訓練選択の実践を指導するための頑健なツールとして有効であることが示唆された。
関連論文リスト
- VIKING: Deep variational inference with stochastic projections [48.946143517489496]
変分平均場近似は、現代の過度にパラメータ化されたディープニューラルネットワークと競合する傾向がある。
パラメータ空間の2つの独立線型部分空間を考える単純な変分族を提案する。
これにより、オーバーパラメトリゼーションを反映した、完全に相関した近似後部を構築することができる。
論文 参考訳(メタデータ) (2025-10-27T15:38:35Z) - AMBER: Adaptive Mesh Generation by Iterative Mesh Resolution Prediction [48.72179728638418]
本稿では,メッシュ適応のための教師あり学習手法であるAMBER(Adaptive Meshing By Expert Reconstruction)を提案する。
AMBERは、サイズフィールドを反復的に予測し、この予測を使用して、アウト・オブ・ザ・ボックスメッシュジェネレータを使用して、新しい中間メッシュを生成する。
AMBERを2次元および3次元の幾何学、古典物理学問題を含むデータセット、機械部品、人間の専門家メッシュを用いた実世界の産業デザインで評価する。
論文 参考訳(メタデータ) (2025-05-29T17:10:44Z) - Random Sparse Lifts: Construction, Analysis and Convergence of finite sparse networks [17.487761710665968]
本稿では,パラメータの数が増えると,勾配流による学習が任意に低損失に達するような,ニューラルネットワークの大規模クラスを定義する枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-10T12:52:00Z) - Interpretable A-posteriori Error Indication for Graph Neural Network Surrogate Models [0.0]
本稿では,グラフニューラルネットワーク(GNN)の解釈可能性向上手法を提案する。
最終結果は、予測タスクに本質的に関連付けられたサブグラフに対応する物理空間内の領域を分離する解釈可能なGNNモデルである。
解釈可能なGNNは、推論中に予測される予測エラーの大部分に対応するグラフノードを特定するためにも使用できる。
論文 参考訳(メタデータ) (2023-11-13T18:37:07Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Reframing Neural Networks: Deep Structure in Overcomplete
Representations [41.84502123663809]
本稿では,構造化過剰フレームを用いた表現学習のための統一フレームワークであるdeep frame approximationを提案する。
表現一意性と安定性に関連付けられたデータ非依存的なコヒーレンス尺度であるdeep frame potentialとの構造的差異を定量化する。
この超完全表現の確立された理論への接続は、原理化されたディープネットワークアーキテクチャ設計の新たな方向性を示唆している。
論文 参考訳(メタデータ) (2021-03-10T01:15:14Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Deep Manifold Prior [37.725563645899584]
本稿では,3次元形状の表面などの多様体構造データに先行する手法を提案する。
この方法で生成された曲面は滑らかであり、ガウス過程を特徴とする制限的な挙動を示し、完全連結および畳み込みネットワークに対して数学的にそのような特性を導出する。
論文 参考訳(メタデータ) (2020-04-08T20:47:56Z) - An Optimization and Generalization Analysis for Max-Pooling Networks [34.58092926599547]
Max-Pooling操作はディープラーニングアーキテクチャの中核的なコンポーネントである。
畳み込み最大プールアーキテクチャの理論解析を行う。
我々は、CNNが我々の設定において完全に接続されたネットワークを著しく上回っていることを実証的に検証した。
論文 参考訳(メタデータ) (2020-02-22T22:26:26Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z) - Understanding Graph Neural Networks with Generalized Geometric
Scattering Transforms [67.88675386638043]
散乱変換は、畳み込みニューラルネットワークのモデルとして機能する多層ウェーブレットベースのディープラーニングアーキテクチャである。
非対称ウェーブレットの非常に一般的なクラスに基づくグラフに対して、窓付きおよび非窓付き幾何散乱変換を導入する。
これらの非対称グラフ散乱変換は、対称グラフ散乱変換と多くの理論的保証を持つことを示す。
論文 参考訳(メタデータ) (2019-11-14T17:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。