論文の概要: A Law of Data Reconstruction for Random Features (and Beyond)
- arxiv url: http://arxiv.org/abs/2509.22214v1
- Date: Fri, 26 Sep 2025 11:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.387289
- Title: A Law of Data Reconstruction for Random Features (and Beyond)
- Title(参考訳): ランダムな特徴に対するデータ再構成の法則
- Authors: Leonardo Iurada, Simone Bombari, Tatiana Tommasi, Marco Mondelli,
- Abstract要約: 大規模なディープラーニングモデルは、トレーニングセットの一部を記憶することが知られている。
モデル内のパラメータs$p$が、トレーニングサンプルs$n$よりも大きい場合、これを実現できることを示す。
我々の結果はデータ再構成の法則を明らかにしており、トレーニングデータセット全体が$p$が$dn$を超えると、回復できる。
- 参考スコア(独自算出の注目度): 35.943641163913206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale deep learning models are known to memorize parts of the training set. In machine learning theory, memorization is often framed as interpolation or label fitting, and classical results show that this can be achieved when the number of parameters $p$ in the model is larger than the number of training samples $n$. In this work, we consider memorization from the perspective of data reconstruction, demonstrating that this can be achieved when $p$ is larger than $dn$, where $d$ is the dimensionality of the data. More specifically, we show that, in the random features model, when $p \gg dn$, the subspace spanned by the training samples in feature space gives sufficient information to identify the individual samples in input space. Our analysis suggests an optimization method to reconstruct the dataset from the model parameters, and we demonstrate that this method performs well on various architectures (random features, two-layer fully-connected and deep residual networks). Our results reveal a law of data reconstruction, according to which the entire training dataset can be recovered as $p$ exceeds the threshold $dn$.
- Abstract(参考訳): 大規模なディープラーニングモデルは、トレーニングセットの一部を記憶することが知られている。
機械学習理論では、記憶は補間やラベルのフィッティングとして扱われることが多く、古典的な結果は、モデルのパラメータの数が$n$のトレーニングサンプルの数よりも大きい場合に達成できることを示している。
本研究では,データ再構成の観点から記憶化を考慮し,$dn$よりも$p$が大きい場合,$d$はデータの次元であることを示す。
より具体的には、ランダムな特徴モデルにおいて、$p \gg dn$ の場合、特徴空間内のトレーニングサンプルによって分散された部分空間は、入力空間内の個々のサンプルを特定するのに十分な情報を与える。
モデルパラメータからデータセットを再構築する最適化手法を提案するとともに,本手法が様々なアーキテクチャ(ランダムな特徴,2層完全接続,ディープ残差ネットワーク)で有効であることを示す。
我々の結果はデータ再構成の法則を明らかにしており、トレーニングデータセット全体が$p$が$dn$を超えると、回復できる。
関連論文リスト
- Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training [8.824077990271503]
一般化から記憶への移行におけるトレーニングダイナミクスの役割について検討する。
私たちは、$tau_mathrmmem$がトレーニングセットサイズ$n$で線形的に増加するのに対して、$tau_mathrmgen$は一定であることに気付きました。
n$がモデル依存しきい値よりも大きくなると、無限のトレーニング時間でオーバーフィットが消える。
論文 参考訳(メタデータ) (2025-05-23T08:58:47Z) - Datasets, Documents, and Repetitions: The Practicalities of Unequal Data Quality [67.67387254989018]
各種計算予算およびデータフィルタリングと復号化によって生成された複数の事前学習データセットにおけるモデル性能について検討する。
トレーニングレシピに適切な修正を加えると、最大10エポックのアグレッシブフィルタデータセットを繰り返すことで、複数の計算予算のオーダーで1エポックの10倍のスーパーセットでのトレーニングを上回ります。
論文 参考訳(メタデータ) (2025-03-10T21:51:17Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model [47.617093812158366]
言語と画像の階層構造にインスパイアされた合成タスクのファミリーであるランダム階層モデルを紹介する。
深層ネットワークは、等価なグループを交換するために不変な内部表現を開発することでタスクを学習する。
この結果から, ネットワークは次元の呪いを克服し, 不変表現を構築できることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T09:11:09Z) - Easy Differentially Private Linear Regression [16.325734286930764]
本研究では,指数関数機構を用いて,非プライベート回帰モデルの集合からタキー深度の高いモデルを選択するアルゴリズムについて検討する。
このアルゴリズムは、データリッチな設定において、強い経験的性能を得る。
論文 参考訳(メタデータ) (2022-08-15T17:42:27Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Reproducible, incremental representation learning with Rosetta VAE [0.0]
変分オートエンコーダは、高次元データから低次元構造を蒸留する最も一般的な方法の一つである。
我々は、以前に学習した表現を蒸留し、新しいモデルを再現し、事前の結果に基づいて構築する手法であるRosetta VAEを紹介する。
R-VAEは、VAEや$beta$-VAEと同様にデータを再構成し、連続的なトレーニング環境でターゲット潜在空間の回復において、両方の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-13T20:45:35Z) - On Using Hamiltonian Monte Carlo Sampling for Reinforcement Learning
Problems in High-dimension [7.200655637873445]
Hamiltonian Monte Carlo (HMC) サンプリングは、RLアルゴリズムをトレーニングするためのデータを生成するための抽出可能な方法を提供する。
textitHamiltonian $Q$-Learningと呼ばれるフレームワークを導入し、理論的にも経験的にも、アクション、報酬、状態遷移のHMCサンプルによって生成されたデータセットから$Q$値が学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-11T17:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。