論文の概要: The Training Process of Many Deep Networks Explores the Same Low-Dimensional Manifold
- arxiv url: http://arxiv.org/abs/2305.01604v3
- Date: Tue, 19 Mar 2024 17:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:30:29.880554
- Title: The Training Process of Many Deep Networks Explores the Same Low-Dimensional Manifold
- Title(参考訳): 低次元マニフォールドを探索する深層ネットワークの学習過程
- Authors: Jialin Mao, Itay Griniasty, Han Kheng Teoh, Rahul Ramesh, Rubing Yang, Mark K. Transtrum, James P. Sethna, Pratik Chaudhari,
- Abstract要約: 我々は,訓練中の深層ネットワーク予測の軌跡を解析するための情報幾何学的手法を開発した。
異なるアーキテクチャを持つネットワークは区別可能な軌跡に従うが、他の要因は最小限の影響を持つ。
より大きなネットワークは、より小さなネットワークと同様の多様体に沿って訓練し、予測空間の非常に異なる部分のネットワークは、同様の多様体に沿って解に収束する。
- 参考スコア(独自算出の注目度): 21.431022906309334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop information-geometric techniques to analyze the trajectories of the predictions of deep networks during training. By examining the underlying high-dimensional probabilistic models, we reveal that the training process explores an effectively low-dimensional manifold. Networks with a wide range of architectures, sizes, trained using different optimization methods, regularization techniques, data augmentation techniques, and weight initializations lie on the same manifold in the prediction space. We study the details of this manifold to find that networks with different architectures follow distinguishable trajectories but other factors have a minimal influence; larger networks train along a similar manifold as that of smaller networks, just faster; and networks initialized at very different parts of the prediction space converge to the solution along a similar manifold.
- Abstract(参考訳): 我々は,訓練中の深層ネットワーク予測の軌跡を解析するための情報幾何学的手法を開発した。
基礎となる高次元確率モデルを調べることにより、トレーニング過程が効果的に低次元多様体を探索することを明らかにする。
様々なアーキテクチャ、サイズを持つネットワークは、様々な最適化手法、正規化技術、データ拡張技術、重み付け初期化を訓練し、予測空間の同じ多様体上に配置する。
この多様体の詳細を調べたところ、異なるアーキテクチャを持つネットワークは区別可能な軌跡に従うが、他の要因は最小限の影響を受けており、より大きなネットワークはより小さなネットワークと同様の多様体に沿って訓練し、予測空間の非常に異なる部分で初期化されるネットワークは、同様の多様体に沿って解に収束する。
関連論文リスト
- Exploring the Manifold of Neural Networks Using Diffusion Geometry [7.038126249994092]
ニューラルネットワークの隠蔽層表現間の距離を導入することにより,データポイントがニューラルネットワークである多様体を学習する。
これらの距離は非線形次元減少アルゴリズムPHATEに供給され、ニューラルネットワークの多様体を生成する。
解析の結果,高い性能のネットワークが一貫した埋め込みパターンを表示できることがわかった。
論文 参考訳(メタデータ) (2024-11-19T16:34:45Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Towards Mitigating Architecture Overfitting in Dataset Distillation [2.7610336610850292]
アーキテクチャ設計とトレーニングスキームの両方において,一般化性能を高めるための一連のアプローチを提案する。
提案手法の有効性と汎用性を実証するための広範な実験を行った。
論文 参考訳(メタデータ) (2023-09-08T08:12:29Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Deep neural networks architectures from the perspective of manifold
learning [0.0]
本稿では,ゲノメトリとトポロジの観点から,ニューラルネットワークアーキテクチャの包括的比較と記述を行う。
我々は、ニューラルネットワークの内部表現と、異なる層上のデータ多様体のトポロジーと幾何学の変化のダイナミクスに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-06T04:57:39Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Semi-supervised Network Embedding with Differentiable Deep Quantisation [81.49184987430333]
我々はネットワーク埋め込みのための微分可能な量子化法であるd-SNEQを開発した。
d-SNEQは、学習された量子化符号にリッチな高次情報を与えるためにランク損失を組み込む。
トレーニング済みの埋め込みのサイズを大幅に圧縮できるため、ストレージのフットプリントが減少し、検索速度が向上する。
論文 参考訳(メタデータ) (2021-08-20T11:53:05Z) - The Principles of Deep Learning Theory [19.33681537640272]
この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
これらのネットワークがトレーニングから非自明な表現を効果的に学習する方法について説明する。
トレーニングネットワークのアンサンブルの有効モデル複雑性を,奥行き比が支配していることを示す。
論文 参考訳(メタデータ) (2021-06-18T15:00:00Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。