論文の概要: The two clocks and the innovation window: When and how generative models learn rules
- arxiv url: http://arxiv.org/abs/2605.10019v1
- Date: Mon, 11 May 2026 05:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.553089
- Title: The two clocks and the innovation window: When and how generative models learn rules
- Title(参考訳): 2つの時計とイノベーションウィンドウ:生成モデルがルールをいつ、どのように学習するか
- Authors: Binxu Wang, Emma Lucia Byrnes Finn, Bingbin Liu,
- Abstract要約: 有限データで訓練された生成モデルは、根本的な緊張に直面します。
モデルがトレーニングサンプルを再生するステップである $_mathrmrule$ と $_mathrmmem$ である。
- 参考スコア(独自算出の注目度): 6.057896719532466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models trained on finite data face a fundamental tension: their score-matching or next-token objective converges to the empirical training distribution rather than the population distribution we seek to learn. Using rule-valid synthetic tasks, we trace this tension across two training timescales: $τ_{\mathrm{rule}}$, the step at which generations first become rule-valid, and $τ_{\mathrm{mem}}$, the step at which models begin reproducing training samples. Focusing on parity and extending to other binary rules and combinatorial puzzles, we characterize how these two clocks, $τ_{\mathrm{rule}}$ and $τ_{\mathrm{mem}}$, depend on key aspects of the learning setup. Specifically, we show that $τ_{\mathrm{rule}}$ increases with rule complexity and decreases with model capacity, while $τ_{\mathrm{mem}}$ is approximately invariant to the rule and scales nearly linearly with dataset size $N$. We define the \emph{innovation window} as the interval $[τ_{\mathrm{rule}}, τ_{\mathrm{mem}}]$. This window widens with increasing $N$ and narrows with rule complexity, and may vanish entirely when $τ_{\mathrm{rule}} \geq τ_{\mathrm{mem}}$. The same two-clock structure arises in both diffusion (DiT) and autoregressive (GPT) models, with architecture-dependent offsets. Dissecting the learned score of DiT models reveals a corresponding evolution of the optimization landscapes, where rule-valid samples' basins expand substantially around $τ_{\mathrm{rule}}$, while training samples' basins begin to dominate around $τ_{\mathrm{mem}}$. Together, these results yield a unified and predictive account of when and how generative models exhibit genuine innovation.
- Abstract(参考訳): 有限データに基づいてトレーニングされた生成モデルは、基本的な緊張に直面している。そのスコアマッチングまたは次の目的は、私たちが学ぼうとしている人口分布よりも経験的なトレーニング分布に収束する。
ルール値合成タスクを用いて、このテンションを2つのトレーニングタイムスケールで追跡する: $τ_{\mathrm{rule}}$、世代が最初にルール値になるステップ、$τ_{\mathrm{mem}}$、モデルがトレーニングサンプルを再生するステップ。
パリティに着目し、他のバイナリルールや組合せパズルまで拡張することで、これらの2つのクロック、$τ_{\mathrm{rule}}$と$τ_{\mathrm{mem}}$が学習設定の重要な側面に依存していることを特徴付ける。
具体的には、$τ_{\mathrm{rule}}$はルールの複雑さによって増加し、モデルキャパシティによって減少するのに対し、$τ_{\mathrm{mem}}$はルールにほぼ不変であり、データセットサイズ$N$とほぼ線形にスケールすることを示す。
我々は \emph{innovation window} を区間 $[τ_{\mathrm{rule}}, τ_{\mathrm{mem}}]$ と定義する。
このウィンドウは、N$の増加とルールの複雑さの狭さにより拡張され、$τ_{\mathrm{rule}} \geq τ_{\mathrm{mem}}$が消える。
同じ2クロック構造は拡散(DiT)モデルと自己回帰(GPT)モデルの両方で発生し、アーキテクチャ依存のオフセットを持つ。
学習したDiTモデルのスコアを判別すると、ルール値のサンプルの盆地が約$τ_{\mathrm{rule}}$で広がり、トレーニングサンプルの盆地が約$τ_{\mathrm{mem}}$で支配され始めます。
これらの結果は、生成モデルが真のイノベーションを示す時期と方法について、統一的で予測的な説明をもたらす。
関連論文リスト
- On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis [22.641550077885686]
我々は,Visual Autoregressive(mathsf/$)モデルの計算限界と効率基準を分析する。
より詳細な複雑性理論からStrong Exponential Time hypothesis(mathsfSETH$)を仮定すると、$mathsf/$モデルに対する準量子時間アルゴリズムは不可能である。
私たちの技術は、$mathsf/$フレームワークでスケーラブルで効率的な画像生成を推し進めることに重点を置いています。
論文 参考訳(メタデータ) (2025-01-08T09:34:15Z) - Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis [54.57279006229212]
情報指数は、オンライン勾配降下のサンプルの複雑さを予測する上で重要な役割を担っている。
本研究では,2次項と高次項の両方を考慮することで,まず2次項を用いて関連する空間を学習できることを示す。
オンラインSGDの全体サンプルと複雑さは$tildeO(d PL-1 )$である。
論文 参考訳(メタデータ) (2024-10-13T00:14:08Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Tight Bounds on the Hardness of Learning Simple Nonparametric Mixtures [9.053430799456587]
有限混合系における非パラメトリック分布の学習問題について検討する。
このようなモデルにおける成分分布を学習するために、サンプルの複雑さに厳密な境界を定めている。
論文 参考訳(メタデータ) (2022-03-28T23:53:48Z) - The Complexity of Dynamic Least-Squares Regression [11.815510373329337]
動的最小二乗回帰の複雑さ。
ゴールは、$min_mathbfx(t)| mathbfA(t) mathbfb(t) |$ for all $tin に対する $epsilon-approximate ソリューションを維持することである。
論文 参考訳(メタデータ) (2022-01-01T18:36:17Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z) - Model Selection with Near Optimal Rates for Reinforcement Learning with
General Model Classes [27.361399036211694]
有限地平線エピソディック強化学習(RL)問題に対するモデル選択の問題に対処する。
モデル選択フレームワークでは、$mathcalP*$の代わりに、遷移カーネルのネストされたファミリーが$M$を与えられる。
textttARL-GENが$TildemathcalO(d_mathcalE* H2+sqrtd_mathcalE* mathbbM* H2T)$の後悔を得ることを示す。
論文 参考訳(メタデータ) (2021-07-13T05:00:38Z) - Model-Based Reinforcement Learning with Value-Targeted Regression [48.92439657407732]
我々は、遷移モデル $P$ が既知のモデルの族 $mathcalP$ に属する有限水平エピソード RL に焦点を当てる。
線形混合の特別な場合において、後悔束は $tildemathcalO(dsqrtH3T)$ という形を取る。
論文 参考訳(メタデータ) (2020-06-01T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。