Fugu-MT 論文翻訳(概要): Generative Modeling of Weights: Generalization or Memorization?

論文の概要: Generative Modeling of Weights: Generalization or Memorization?

arxiv url: http://arxiv.org/abs/2506.07998v2
Date: Fri, 03 Oct 2025 17:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 16:35:51.946884
Title: Generative Modeling of Weights: Generalization or Memorization?
Title（参考訳）: 体重のジェネレーティブモデリング:一般化か記憶か?
Authors: Boya Zeng, Yida Yin, Zhiqiu Xu, Zhuang Liu,
Abstract要約: 生成モデルは、ニューラルネットワークのチェックポイントをトレーニングデータとして、推論中に高いパフォーマンスの重みを生成することを目的としています。本研究では,新しいモデル重みを生成できる4つの代表的,よく知られた手法について検討する。これらの手法は、主に記憶化によって重みを合成し、レプリカを生成するか、あるいはトレーニングチェックポイントの単純さを良く表す。
参考スコア（独自算出の注目度）: 10.591494826215142
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative models have recently been explored for synthesizing neural network weights. These approaches take neural network checkpoints as training data and aim to generate high-performing weights during inference. In this work, we examine four representative, well-known methods on their ability to generate novel model weights, i.e., weights that are different from the checkpoints seen during training. Contrary to claims in prior work, we find that these methods synthesize weights largely by memorization: they produce either replicas, or, at best, simple interpolations of the training checkpoints. Moreover, they fail to outperform simple baselines, such as adding noise to the weights or taking a simple weight ensemble, in obtaining different and simultaneously high-performing models. Our further analysis suggests that this memorization might result from limited data, overparameterized models, and the underuse of structural priors specific to weight data. These findings highlight the need for more careful design and rigorous evaluation of generative models when applied to new domains. Our code is available at https://github.com/boyazeng/weight_memorization.
Abstract（参考訳）: ニューラルネット重みを合成するための生成モデルが最近研究されている。これらのアプローチは、ニューラルネットワークのチェックポイントをトレーニングデータとして捉え、推論中にハイパフォーマンスな重みを生成することを目的としている。本研究では,新しいモデル重みの生成能力,すなわち,トレーニング中に見られたチェックポイントと異なる重みの4つの代表的,よく知られた方法について検討する。先行研究の主張とは対照的に、これらの手法は、主に記憶によって重みを合成する:それらはレプリカを生成するか、または、せいぜい、トレーニングチェックポイントの単純な補間を生成する。さらに、重みにノイズを加えたり、単純な重みのアンサンブルを取るといった単純なベースラインを上回り、異なるハイパフォーマンスモデルを得るのに失敗する。さらに分析したところ、この記憶は、限られたデータ、過パラメータ化モデル、および重みデータに特有の構造的事前利用によって引き起こされる可能性が示唆された。これらの知見は、新しいドメインに適用する場合に、より慎重な設計と厳密な生成モデルの評価の必要性を浮き彫りにしている。私たちのコードはhttps://github.com/boyazeng/weight_memorization.comで利用可能です。

関連論文リスト

The Impact of Model Zoo Size and Composition on Weight Space Learning [8.11780615053558]
トレーニングされたニューラルネットワークモデルを再利用することは、トレーニングコストを削減し、知識を伝達する一般的な戦略である。重量宇宙学習は、将来のタスクのために事前訓練されたモデルの集団を再利用するための、有望な新しい分野である。そこで本研究では,異種集団の訓練に適応する共通重み空間学習法を提案する。
論文参考訳（メタデータ） (2025-04-14T11:54:06Z)
Generative Feature Training of Thin 2-Layer Networks [0.0]
正方形損失と小さなデータセットに基づく隠れ重みの少ない2層ニューラルネットワークによる関数近似を考察する。高度に隠蔽されたモデルとして、学習された分布提案からのサンプルを用いて隠れ重みを利用する。潜時空間における勾配に基づく後処理により, 試料重量を改良する。
論文参考訳（メタデータ） (2024-11-11T10:32:33Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。 NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。 75%の圧縮速度でもフルサイズの性能を維持する。
論文参考訳（メタデータ） (2024-10-10T14:49:58Z)
Efficient Training with Denoised Neural Weights [65.14892033932895]
この研究は、初期化のために神経重みを合成するウェイトジェネレータを構築するための新しい一歩を踏み出した。本稿では,モデル重みの収集を容易にするために,GANを用いた画像間翻訳タスクを例に挙げる。拡散モデルによって予測される重み付き画像翻訳モデルを初期化することにより、トレーニングは43.3秒しか必要としない。
論文参考訳（メタデータ） (2024-07-16T17:59:42Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Stochastic Approximation Approach to Federated Machine Learning [0.0]
本稿では、近似(SA)フレームワークにおけるフェデレートラーニング(FL)について検討する。 FLは、さまざまな参加者やクライアント間でニューラルネットワークモデルをトレーニングする、協調的な方法である。提案アルゴリズムは頑健であり,より信頼性の高い重み推定を行う。
論文参考訳（メタデータ） (2024-02-20T12:00:25Z)
Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文参考訳（メタデータ） (2023-11-30T18:58:26Z)
Data Augmentations in Deep Weight Spaces [89.45272760013928]
そこで本研究では,Mixup法に基づく新しい拡張手法を提案する。既存のベンチマークと新しいベンチマークでこれらのテクニックのパフォーマンスを評価する。
論文参考訳（メタデータ） (2023-11-15T10:43:13Z)
Diffusion-Model-Assisted Supervised Learning of Generative Models for Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。スコアベース拡散モデルを用いてラベル付きデータを生成する。ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文参考訳（メタデータ） (2023-10-22T23:56:19Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
Learning to Jump: Thinning and Thickening Latent Counts for Generative Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文参考訳（メタデータ） (2023-05-28T05:38:28Z)
Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文参考訳（メタデータ） (2022-07-19T20:19:03Z)
Amortized learning of neural causal representations [10.140457813764554]
因果モデルでは、すべての介入の下でデータ生成プロセスをコンパクトかつ効率的に符号化することができる。これらのモデルは、しばしばベイズ的ネットワークとして表現され、変数の数に劣るスケールを学習する。ニューラルネットワークを用いた因果モデル学習のための,テキスト因果関係ネットワーク(CRN)と呼ばれる新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-08-21T04:35:06Z)
Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文参考訳（メタデータ） (2020-07-25T13:23:37Z)
Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文参考訳（メタデータ） (2020-07-09T09:06:31Z)
Efficient Learning of Model Weights via Changing Features During Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文参考訳（メタデータ） (2020-02-21T12:38:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。