論文の概要: Generative Modeling of Weights: Generalization or Memorization?
- arxiv url: http://arxiv.org/abs/2506.07998v1
- Date: Mon, 09 Jun 2025 17:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.103097
- Title: Generative Modeling of Weights: Generalization or Memorization?
- Title(参考訳): 体重のジェネレーティブモデリング:一般化か記憶か?
- Authors: Boya Zeng, Yida Yin, Zhiqiu Xu, Zhuang Liu,
- Abstract要約: 効率的なニューラルネットワークの重み付けのために生成モデルが検討されている。
本研究では,新しいモデル重みを生成できる4つの手法について検討する。
これらの手法は主として記憶によって重みを合成する。
- 参考スコア(独自算出の注目度): 5.365909921563036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models, with their success in image and video generation, have recently been explored for synthesizing effective neural network weights. These approaches take trained neural network checkpoints as training data, and aim to generate high-performing neural network weights during inference. In this work, we examine four representative methods on their ability to generate novel model weights, i.e., weights that are different from the checkpoints seen during training. Surprisingly, we find that these methods synthesize weights largely by memorization: they produce either replicas, or at best simple interpolations, of the training checkpoints. Current methods fail to outperform simple baselines, such as adding noise to the weights or taking a simple weight ensemble, in obtaining different and simultaneously high-performing models. We further show that this memorization cannot be effectively mitigated by modifying modeling factors commonly associated with memorization in image diffusion models, or applying data augmentations. Our findings provide a realistic assessment of what types of data current generative models can model, and highlight the need for more careful evaluation of generative models in new domains. Our code is available at https://github.com/boyazeng/weight_memorization.
- Abstract(参考訳): 生成モデルは、画像およびビデオ生成の成功と共に、最近、効果的なニューラルネットワーク重みを合成するために研究されている。
これらのアプローチは、トレーニングされたニューラルネットワークチェックポイントをトレーニングデータとして、推論中に高性能なニューラルネットワーク重みを生成することを目的としている。
本研究では,新しいモデル重みを生成できる4つの代表的な方法,すなわち,トレーニング中に見られたチェックポイントと異なる重みを生成する方法について検討する。
驚くべきことに、これらの手法は、主に記憶によって重量を合成し、トレーニングチェックポイントのレプリカまたは最も単純な補間を生成する。
現在の手法では、ウェイトにノイズを加えたり、単純なウェイトアンサンブルを取るといった単純なベースラインを上回り、異なるハイパフォーマンスモデルを得るのに失敗している。
さらに,画像拡散モデルにおける記憶に関連するモデル要素の変更やデータ拡張の適用により,この記憶を効果的に緩和することは不可能であることを示す。
以上の結果から, 新たな領域におけるデータ生成モデルのより詳細な評価の必要性を浮き彫りにしたデータ生成モデルについて, 現実的な評価を行うことができた。
私たちのコードはhttps://github.com/boyazeng/weight_memorization.comで利用可能です。
関連論文リスト
- The Impact of Model Zoo Size and Composition on Weight Space Learning [8.11780615053558]
トレーニングされたニューラルネットワークモデルを再利用することは、トレーニングコストを削減し、知識を伝達する一般的な戦略である。
重量宇宙学習は、将来のタスクのために事前訓練されたモデルの集団を再利用するための、有望な新しい分野である。
そこで本研究では,異種集団の訓練に適応する共通重み空間学習法を提案する。
論文 参考訳(メタデータ) (2025-04-14T11:54:06Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Amortized learning of neural causal representations [10.140457813764554]
因果モデルでは、すべての介入の下でデータ生成プロセスをコンパクトかつ効率的に符号化することができる。
これらのモデルは、しばしばベイズ的ネットワークとして表現され、変数の数に劣るスケールを学習する。
ニューラルネットワークを用いた因果モデル学習のための,テキスト因果関係ネットワーク(CRN)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-21T04:35:06Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。