論文の概要: On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2602.00130v1
- Date: Wed, 28 Jan 2026 04:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.964975
- Title: On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおける表現幾何学と一般化の関係について
- Authors: Sumit Yadav,
- Abstract要約: 教師なし幾何学的計量である有効次元が精度を強く予測することを示す。
ノイズによる幾何劣化は精度損失(r=-0.94, $p 10(9)$)を引き起こすが、PCAによる幾何改善はアーキテクチャ全体にわたる精度(95%のばらつきで-0.03pp)を維持する。
これらの結果は、有効次元が、ラベルなしで完全に計算されたニューラルネットワークの性能に関するドメインに依存しない予測および因果情報を提供することを証明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the relationship between representation geometry and neural network performance. Analyzing 52 pretrained ImageNet models across 13 architecture families, we show that effective dimension -- an unsupervised geometric metric -- strongly predicts accuracy. Output effective dimension achieves partial r=0.75 ($p < 10^(-10)$) after controlling for model capacity, while total compression achieves partial r=-0.72. These findings replicate across ImageNet and CIFAR-10, and generalize to NLP: effective dimension predicts performance for 8 encoder models on SST-2/MNLI and 15 decoder-only LLMs on AG News (r=0.69, p=0.004), while model size does not (r=0.07). We establish bidirectional causality: degrading geometry via noise causes accuracy loss (r=-0.94, $p < 10^(-9)$), while improving geometry via PCA maintains accuracy across architectures (-0.03pp at 95% variance). This relationship is noise-type agnostic -- Gaussian, Uniform, Dropout, and Salt-and-pepper noise all show $|r| > 0.90$. These results establish that effective dimension provides domain-agnostic predictive and causal information about neural network performance, computed entirely without labels.
- Abstract(参考訳): 本稿では,表現幾何学とニューラルネットワーク性能の関係について検討する。
13のアーキテクチャファミリにわたる52の事前トレーニング済みイメージネットモデルを分析し、教師なし幾何学的計量である有効次元が精度を強く予測することを示した。
出力有効次元は、モデル容量を制御した後、部分的な r=0.75$p < 10^(-10)$) を達成するが、全体圧縮は部分的な r=-0.72 を達成する。
有効次元は、SST-2/MNLI上の8エンコーダモデルとAG News上の15個のデコーダのみのLLM(r=0.69, p=0.004)のパフォーマンスを予測し、モデルサイズは(r=0.07)。
ノイズによる幾何劣化は精度損失(r=-0.94, $p < 10^(-9)$)を引き起こすが、PCAによる幾何改善はアーキテクチャ全体の精度(95%のばらつきで-0.03pp)を維持する。
ガウス、ユニフォーム、ドロップアウト、ソルト・アンド・ペッパーのノイズはすべて、|r| > 0.90$である。
これらの結果は、有効次元が、ラベルなしで完全に計算されたニューラルネットワークの性能に関するドメインに依存しない予測および因果情報を提供することを証明している。
関連論文リスト
- Geometric Operator Learning with Optimal Transport [77.16909146519227]
複素測地上での偏微分方程式(PDE)に対する演算子学習に最適輸送(OT)を統合することを提案する。
表面に焦点を当てた3次元シミュレーションでは、OTベースのニューラルオペレーターが表面形状を2次元パラメータ化潜在空間に埋め込む。
ShapeNet-Car と DrivAerNet-Car を用いたレイノルズ平均化 Navier-Stokes 方程式 (RANS) を用いた実験により,提案手法は精度の向上と計算コストの削減を図った。
論文 参考訳(メタデータ) (2025-07-26T21:28:25Z) - MPruner: Optimizing Neural Network Size with CKA-Based Mutual Information Pruning [7.262751938473306]
プルーニング(Pruning)は、ニューラルネットワークのサイズを減らし、数学的に精度の保存を保証している、よく確立されたテクニックである。
我々は,ベクトル類似性により相互情報を活用する新しいプルーニングアルゴリズムMPrunerを開発した。
MPrunerはCNNとトランスフォーマーベースのモデルで最大50%のパラメータとメモリ使用量の削減を実現した。
論文 参考訳(メタデータ) (2024-08-24T05:54:47Z) - Towards Generalized Entropic Sparsification for Convolutional Neural Networks [0.0]
畳み込みニューラルネットワーク(CNN)は過度にパラメータ化されていると報告されている。
本稿では,計算可能エントロピー緩和を目的とした数学的アイデアに基づく層間データ駆動プルーニング手法を提案する。
スパースサブネットワークは、ネットワークエントロピー最小化をスペーサ性制約として使用した、事前訓練された(フル)CNNから得られる。
論文 参考訳(メタデータ) (2024-04-06T21:33:39Z) - Geometry-Informed Neural Operator for Large-Scale 3D PDEs [76.06115572844882]
大規模偏微分方程式の解演算子を学習するために,幾何インフォームド・ニューラル演算子(GINO)を提案する。
我々はGINOを訓練し、わずか500点のデータポイントで車両表面の圧力を予測することに成功した。
論文 参考訳(メタデータ) (2023-09-01T16:59:21Z) - Combining Gradients and Probabilities for Heterogeneous Approximation of
Neural Networks [2.5744053804694893]
近似乗算器の挙動シミュレーションのための代理モデルとして,加法的ガウス雑音の有効性について検討する。
バックプロパゲーションを用いたネットワークトレーニングにおいて、正確な計算に注入されるノイズの量について学習する。
実験により,不均一近似とニューラルネットワーク再学習の組み合わせは,変種に対するエネルギー消費を減少させることが示された。
論文 参考訳(メタデータ) (2022-08-15T15:17:34Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Densely connected neural networks for nonlinear regression [8.830042935753303]
本稿では,畳み込み層とプール層を完全連結層に置き換えた新しいDenseNet回帰モデルを提案する。
結果は最適な深さ(19)を与え、限られた入力次元(200以下)を推奨する。
最終的に、DenseNet回帰は相対湿度を予測するために適用され、その結果は観測と高い相関(0.91)を示す。
論文 参考訳(メタデータ) (2021-07-29T03:41:56Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Calibrating Deep Neural Networks using Focal Loss [77.92765139898906]
ミススキャリブレーション(Miscalibration)は、モデルの信頼性と正しさのミスマッチである。
焦点損失は、既に十分に校正されたモデルを学ぶことができることを示す。
ほぼすべてのケースにおいて精度を損なうことなく,最先端のキャリブレーションを達成できることを示す。
論文 参考訳(メタデータ) (2020-02-21T17:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。