論文の概要: Generative Modeling of Weights: Generalization or Memorization?
- arxiv url: http://arxiv.org/abs/2506.07998v2
- Date: Fri, 03 Oct 2025 17:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:51.946884
- Title: Generative Modeling of Weights: Generalization or Memorization?
- Title(参考訳): 体重のジェネレーティブモデリング:一般化か記憶か?
- Authors: Boya Zeng, Yida Yin, Zhiqiu Xu, Zhuang Liu,
- Abstract要約: 生成モデルは、ニューラルネットワークのチェックポイントをトレーニングデータとして、推論中に高いパフォーマンスの重みを生成することを目的としています。
本研究では,新しいモデル重みを生成できる4つの代表的,よく知られた手法について検討する。
これらの手法は、主に記憶化によって重みを合成し、レプリカを生成するか、あるいはトレーニングチェックポイントの単純さを良く表す。
- 参考スコア(独自算出の注目度): 10.591494826215142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have recently been explored for synthesizing neural network weights. These approaches take neural network checkpoints as training data and aim to generate high-performing weights during inference. In this work, we examine four representative, well-known methods on their ability to generate novel model weights, i.e., weights that are different from the checkpoints seen during training. Contrary to claims in prior work, we find that these methods synthesize weights largely by memorization: they produce either replicas, or, at best, simple interpolations of the training checkpoints. Moreover, they fail to outperform simple baselines, such as adding noise to the weights or taking a simple weight ensemble, in obtaining different and simultaneously high-performing models. Our further analysis suggests that this memorization might result from limited data, overparameterized models, and the underuse of structural priors specific to weight data. These findings highlight the need for more careful design and rigorous evaluation of generative models when applied to new domains. Our code is available at https://github.com/boyazeng/weight_memorization.
- Abstract(参考訳): ニューラルネット重みを合成するための生成モデルが最近研究されている。
これらのアプローチは、ニューラルネットワークのチェックポイントをトレーニングデータとして捉え、推論中にハイパフォーマンスな重みを生成することを目的としている。
本研究では,新しいモデル重みの生成能力,すなわち,トレーニング中に見られたチェックポイントと異なる重みの4つの代表的,よく知られた方法について検討する。
先行研究の主張とは対照的に、これらの手法は、主に記憶によって重みを合成する:それらはレプリカを生成するか、または、せいぜい、トレーニングチェックポイントの単純な補間を生成する。
さらに、重みにノイズを加えたり、単純な重みのアンサンブルを取るといった単純なベースラインを上回り、異なるハイパフォーマンスモデルを得るのに失敗する。
さらに分析したところ、この記憶は、限られたデータ、過パラメータ化モデル、および重みデータに特有の構造的事前利用によって引き起こされる可能性が示唆された。
これらの知見は、新しいドメインに適用する場合に、より慎重な設計と厳密な生成モデルの評価の必要性を浮き彫りにしている。
私たちのコードはhttps://github.com/boyazeng/weight_memorization.comで利用可能です。
関連論文リスト
- The Impact of Model Zoo Size and Composition on Weight Space Learning [8.11780615053558]
トレーニングされたニューラルネットワークモデルを再利用することは、トレーニングコストを削減し、知識を伝達する一般的な戦略である。
重量宇宙学習は、将来のタスクのために事前訓練されたモデルの集団を再利用するための、有望な新しい分野である。
そこで本研究では,異種集団の訓練に適応する共通重み空間学習法を提案する。
論文 参考訳(メタデータ) (2025-04-14T11:54:06Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Amortized learning of neural causal representations [10.140457813764554]
因果モデルでは、すべての介入の下でデータ生成プロセスをコンパクトかつ効率的に符号化することができる。
これらのモデルは、しばしばベイズ的ネットワークとして表現され、変数の数に劣るスケールを学習する。
ニューラルネットワークを用いた因果モデル学習のための,テキスト因果関係ネットワーク(CRN)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-21T04:35:06Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。