論文の概要: How Does Overparameterization Affect Features?
- arxiv url: http://arxiv.org/abs/2407.00968v1
- Date: Mon, 1 Jul 2024 05:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:36:18.777216
- Title: How Does Overparameterization Affect Features?
- Title(参考訳): オーバーパラメータ化は機能にどのように影響するか?
- Authors: Ahmet Cagri Duzgun, Samy Jelassi, Yuanzhi Li,
- Abstract要約: まず、これらのモデルの特徴の表現性について検討し、パラメータ化されていない多くの特徴を連結することにより、オーバーパラメータ化ネットワークの特徴空間を分散できないことを示す。
次に、これらのモデルの性能を評価し、パラメータ化されたネットワークでは、パラメータ化されたネットワークよりも性能が高いことを示す。
本稿では,パラメータ化ネットワークが学習できない重要な特徴を,パラメータ化ネットワークがいかに学習できるかを説明するための玩具セットを提案する。
- 参考スコア(独自算出の注目度): 42.99771787546585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overparameterization, the condition where models have more parameters than necessary to fit their training loss, is a crucial factor for the success of deep learning. However, the characteristics of the features learned by overparameterized networks are not well understood. In this work, we explore this question by comparing models with the same architecture but different widths. We first examine the expressivity of the features of these models, and show that the feature space of overparameterized networks cannot be spanned by concatenating many underparameterized features, and vice versa. This reveals that both overparameterized and underparameterized networks acquire some distinctive features. We then evaluate the performance of these models, and find that overparameterized networks outperform underparameterized networks, even when many of the latter are concatenated. We corroborate these findings using a VGG-16 and ResNet18 on CIFAR-10 and a Transformer on the MNLI classification dataset. Finally, we propose a toy setting to explain how overparameterized networks can learn some important features that the underparamaterized networks cannot learn.
- Abstract(参考訳): 過パラメータ化(Overparameterization)は、モデルがトレーニング損失に適合するために必要以上のパラメータを持つ状態であり、ディープラーニングの成功にとって重要な要素である。
しかし、過度にパラメータ化されたネットワークによって学習された特徴の特徴はよく理解されていない。
本研究では,同じアーキテクチャと異なる幅のモデルを比較することで,この問題を考察する。
まず,これらのモデルの特徴の表現性について検討し,多くのパラメータ化特徴を連結することにより,過パラメータ化ネットワークの特徴空間を分散できないことを示す。
これは、過度にパラメータ化されたネットワークと過度にパラメータ化されたネットワークの両方に、いくつかの特徴があることを示している。
次に、これらのモデルの性能を評価し、多くのモデルが連結しても、過パラメータ化されたネットワークは過パラメータ化されたネットワークより優れていることを示す。
CIFAR-10 上の VGG-16 と ResNet18 と MNLI 分類データセット上の Transformer を用いて,これらの知見を照合した。
最後に、過パラメータ化されたネットワークが、過パラメータ化されたネットワークが学べない重要な特徴をいかに学習できるかを説明するための玩具設定を提案する。
関連論文リスト
- On Learnable Parameters of Optimal and Suboptimal Deep Learning Models [2.889799048595314]
ディープラーニングモデルの構造的および運用的側面について検討する。
本研究は,学習可能なパラメータ(重み)統計,分布,ノード間相互作用,可視化のニュアンスに着目した。
論文 参考訳(メタデータ) (2024-08-21T15:50:37Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Conditionally Parameterized, Discretization-Aware Neural Networks for
Mesh-Based Modeling of Physical Systems [0.0]
入力パラメータのトレーニング可能な関数を用いて条件パラメトリゼーションの考え方を一般化する。
条件パラメータ化ネットワークは従来のネットワークに比べて優れた性能を示すことを示す。
CP-GNetと呼ばれるネットワークアーキテクチャも、メッシュ上のフローのスタンドアロン予測に反応可能な最初のディープラーニングモデルとして提案されている。
論文 参考訳(メタデータ) (2021-09-15T20:21:13Z) - Network insensitivity to parameter noise via adversarial regularization [0.0]
本稿では,学習中にネットワークパラメータを攻撃できる新しい対向的ネットワーク最適化アルゴリズムを提案する。
提案手法は,対象パラメータの変動に対してより堅牢なモデルを生成する。
私たちの研究は、計算非理想性に苦しむデバイスを推論するために、ニューラルネットワークアーキテクチャをデプロイするためのアプローチを提供します。
論文 参考訳(メタデータ) (2021-06-09T12:11:55Z) - Exploring the parameter reusability of CNN [12.654187477646449]
本稿では,コンボリューションカーネルの再利用性能に基づいて,あるネットワークが再利用可能なかどうかを判定できるソリューションを提案する。
まず、ネットワークは再利用可能なネットワークであり、次に、ソースドメインとターゲットドメインとの畳み込みカーネル間のRMSEは十分小さい。
論文 参考訳(メタデータ) (2020-08-08T01:23:22Z) - Neural Parameter Allocation Search [57.190693718951316]
ニューラルネットワークのトレーニングには、メモリの量を増やす必要がある。
既存の手法では、ネットワークには多くの同一層があり、一般化に失敗する手作りの共有戦略を利用する。
我々は、任意のパラメータ予算を与えられたニューラルネットワークをトレーニングする新しいタスクであるNPAS(Neural Allocation Search)を紹介する。
NPASは、コンパクトネットワークを創出する低予算体制と、推論FLOPを増大させることなく性能を高めるために、新たな高予算体制の両方をカバーしている。
論文 参考訳(メタデータ) (2020-06-18T15:01:00Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。