Fugu-MT 論文翻訳(概要): How Does Overparameterization Affect Features?

論文の概要: How Does Overparameterization Affect Features?

arxiv url: http://arxiv.org/abs/2407.00968v1
Date: Mon, 1 Jul 2024 05:01:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 00:36:18.777216
Title: How Does Overparameterization Affect Features?
Title（参考訳）: オーバーパラメータ化は機能にどのように影響するか?
Authors: Ahmet Cagri Duzgun, Samy Jelassi, Yuanzhi Li,
Abstract要約: まず、これらのモデルの特徴の表現性について検討し、パラメータ化されていない多くの特徴を連結することにより、オーバーパラメータ化ネットワークの特徴空間を分散できないことを示す。次に、これらのモデルの性能を評価し、パラメータ化されたネットワークでは、パラメータ化されたネットワークよりも性能が高いことを示す。本稿では,パラメータ化ネットワークが学習できない重要な特徴を,パラメータ化ネットワークがいかに学習できるかを説明するための玩具セットを提案する。
参考スコア（独自算出の注目度）: 42.99771787546585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Overparameterization, the condition where models have more parameters than necessary to fit their training loss, is a crucial factor for the success of deep learning. However, the characteristics of the features learned by overparameterized networks are not well understood. In this work, we explore this question by comparing models with the same architecture but different widths. We first examine the expressivity of the features of these models, and show that the feature space of overparameterized networks cannot be spanned by concatenating many underparameterized features, and vice versa. This reveals that both overparameterized and underparameterized networks acquire some distinctive features. We then evaluate the performance of these models, and find that overparameterized networks outperform underparameterized networks, even when many of the latter are concatenated. We corroborate these findings using a VGG-16 and ResNet18 on CIFAR-10 and a Transformer on the MNLI classification dataset. Finally, we propose a toy setting to explain how overparameterized networks can learn some important features that the underparamaterized networks cannot learn.
Abstract（参考訳）: 過パラメータ化(Overparameterization)は、モデルがトレーニング損失に適合するために必要以上のパラメータを持つ状態であり、ディープラーニングの成功にとって重要な要素である。しかし、過度にパラメータ化されたネットワークによって学習された特徴の特徴はよく理解されていない。本研究では,同じアーキテクチャと異なる幅のモデルを比較することで,この問題を考察する。まず,これらのモデルの特徴の表現性について検討し,多くのパラメータ化特徴を連結することにより,過パラメータ化ネットワークの特徴空間を分散できないことを示す。これは、過度にパラメータ化されたネットワークと過度にパラメータ化されたネットワークの両方に、いくつかの特徴があることを示している。次に、これらのモデルの性能を評価し、多くのモデルが連結しても、過パラメータ化されたネットワークは過パラメータ化されたネットワークより優れていることを示す。 CIFAR-10 上の VGG-16 と ResNet18 と MNLI 分類データセット上の Transformer を用いて,これらの知見を照合した。最後に、過パラメータ化されたネットワークが、過パラメータ化されたネットワークが学べない重要な特徴をいかに学習できるかを説明するための玩具設定を提案する。

関連論文リスト

Not All Parameters Matter: Masking Diffusion Models for Enhancing Generation Ability [34.888135351211616]
MaskUNetは、パラメータ番号を無視して生成品質を向上する、単純で効果的なメソッド式MaskUNet'-である。トレーニングベースのアプローチと、カスタマイズされたネットワークと最適化機能を含むトレーニングなしアプローチの2つの微調整戦略を提供します。 COCOデータセット上のゼロショット推論では、MaskUNetは最高のFIDスコアを獲得し、下流タスク評価におけるその効果をさらに示す。
論文参考訳（メタデータ） (2025-05-06T01:14:20Z)
Instruction-Guided Autoregressive Neural Network Parameter Generation [49.800239140036496]
本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
論文参考訳（メタデータ） (2025-04-02T05:50:19Z)
Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。 RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文参考訳（メタデータ） (2025-01-20T16:46:26Z)
On Learnable Parameters of Optimal and Suboptimal Deep Learning Models [2.889799048595314]
ディープラーニングモデルの構造的および運用的側面について検討する。本研究は,学習可能なパラメータ(重み)統計,分布,ノード間相互作用,可視化のニュアンスに着目した。
論文参考訳（メタデータ） (2024-08-21T15:50:37Z)
Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文参考訳（メタデータ） (2024-02-27T11:52:49Z)
Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文参考訳（メタデータ） (2022-09-26T17:59:58Z)
Conditionally Parameterized, Discretization-Aware Neural Networks for Mesh-Based Modeling of Physical Systems [0.0]
入力パラメータのトレーニング可能な関数を用いて条件パラメトリゼーションの考え方を一般化する。条件パラメータ化ネットワークは従来のネットワークに比べて優れた性能を示すことを示す。 CP-GNetと呼ばれるネットワークアーキテクチャも、メッシュ上のフローのスタンドアロン予測に反応可能な最初のディープラーニングモデルとして提案されている。
論文参考訳（メタデータ） (2021-09-15T20:21:13Z)
Network insensitivity to parameter noise via adversarial regularization [0.0]
本稿では,学習中にネットワークパラメータを攻撃できる新しい対向的ネットワーク最適化アルゴリズムを提案する。提案手法は,対象パラメータの変動に対してより堅牢なモデルを生成する。私たちの研究は、計算非理想性に苦しむデバイスを推論するために、ニューラルネットワークアーキテクチャをデプロイするためのアプローチを提供します。
論文参考訳（メタデータ） (2021-06-09T12:11:55Z)
Exploring the parameter reusability of CNN [12.654187477646449]
本稿では,コンボリューションカーネルの再利用性能に基づいて,あるネットワークが再利用可能なかどうかを判定できるソリューションを提案する。まず、ネットワークは再利用可能なネットワークであり、次に、ソースドメインとターゲットドメインとの畳み込みカーネル間のRMSEは十分小さい。
論文参考訳（メタデータ） (2020-08-08T01:23:22Z)
Neural Parameter Allocation Search [57.190693718951316]
ニューラルネットワークのトレーニングには、メモリの量を増やす必要がある。既存の手法では、ネットワークには多くの同一層があり、一般化に失敗する手作りの共有戦略を利用する。我々は、任意のパラメータ予算を与えられたニューラルネットワークをトレーニングする新しいタスクであるNPAS(Neural Allocation Search)を紹介する。 NPASは、コンパクトネットワークを創出する低予算体制と、推論FLOPを増大させることなく性能を高めるために、新たな高予算体制の両方をカバーしている。
論文参考訳（メタデータ） (2020-06-18T15:01:00Z)
When Residual Learning Meets Dense Aggregation: Rethinking the Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文参考訳（メタデータ） (2020-04-19T08:34:52Z)
Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文参考訳（メタデータ） (2020-02-03T04:11:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。