論文の概要: How compositional generalization and creativity improve as diffusion models are trained
- arxiv url: http://arxiv.org/abs/2502.12089v1
- Date: Mon, 17 Feb 2025 18:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:29.119266
- Title: How compositional generalization and creativity improve as diffusion models are trained
- Title(参考訳): 拡散モデルの訓練による構成一般化と創造性の改善
- Authors: Alessandro Favero, Antonio Sclocchi, Francesco Cagnetta, Pascal Frossard, Matthieu Wyart,
- Abstract要約: 生成モデルでは、多くの新しいデータを生成するために、構成規則を学習する必要があるサンプルはいくつありますか?
言語や画像などのデータ構造を表現するために,木のようなグラフィカルモデルを用いて,単純な文脈自由文法に基づいて学習した拡散モデルを考察する。
拡散モデルは,統計学的に類似したコンテキストを持つクラスタリング機能に必要なサンプル複雑度で構成規則を学習する。
- 参考スコア(独自算出の注目度): 82.08869888944324
- License:
- Abstract: Natural data is often organized as a hierarchical composition of features. How many samples do generative models need to learn the composition rules, so as to produce a combinatorial number of novel data? What signal in the data is exploited to learn? We investigate these questions both theoretically and empirically. Theoretically, we consider diffusion models trained on simple probabilistic context-free grammars - tree-like graphical models used to represent the structure of data such as language and images. We demonstrate that diffusion models learn compositional rules with the sample complexity required for clustering features with statistically similar context, a process similar to the word2vec algorithm. However, this clustering emerges hierarchically: higher-level, more abstract features associated with longer contexts require more data to be identified. This mechanism leads to a sample complexity that scales polynomially with the said context size. As a result, diffusion models trained on intermediate dataset size generate data coherent up to a certain scale, but that lacks global coherence. We test these predictions in different domains, and find remarkable agreement: both generated texts and images achieve progressively larger coherence lengths as the training time or dataset size grows. We discuss connections between the hierarchical clustering mechanism we introduce here and the renormalization group in physics.
- Abstract(参考訳): 自然データは、しばしば階層的な特徴の合成として整理される。
合成モデルは、合成規則を学習し、新規データの組合せ数を生成するために、いくつのサンプルが必要か?
データのどの信号を使って学習するのか?
我々はこれらの疑問を理論的にも経験的にも調査する。
理論的には、単純な確率的文脈自由文法に基づいて訓練された拡散モデルを考える。
拡散モデルは,Word2vecアルゴリズムに類似したプロセスである統計的に類似したコンテキストで,クラスタリング機能に必要なサンプルの複雑さで構成規則を学習することを示した。
しかし、このクラスタリングは階層的に現れ、より長いコンテキストに関連するより高レベルで抽象的な機能は、より多くのデータを識別する必要がある。
このメカニズムは、上記のコンテキストサイズと多項式的にスケールするサンプル複雑性をもたらす。
その結果、中間データセットサイズに基づいてトレーニングされた拡散モデルは、一定の規模までデータコヒーレントを生成するが、グローバルコヒーレンスに欠ける。
生成されたテキストと画像は、トレーニング時間やデータセットのサイズが大きくなるにつれて、徐々に大きなコヒーレンスの長さを達成する。
ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
関連論文リスト
- Dissecting embedding method: learning higher-order structures from data [0.0]
データ学習のための幾何学的深層学習法は、しばしば特徴空間の幾何学に関する仮定のセットを含む。
これらの仮定と、データが離散的で有限であるという仮定は、いくつかの一般化を引き起こし、データとモデルの出力の間違った解釈を生み出す可能性がある。
論文 参考訳(メタデータ) (2024-10-14T08:19:39Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - A Phase Transition in Diffusion Models Reveals the Hierarchical Nature of Data [51.03144354630136]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
t$の後に作用する後方拡散過程は相転移によって制御される。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - How Deep Neural Networks Learn Compositional Data: The Random Hierarchy Model [47.617093812158366]
言語と画像の階層構造にインスパイアされた合成タスクのファミリーであるランダム階層モデルを紹介する。
深層ネットワークは、等価なグループを交換するために不変な内部表現を開発することでタスクを学習する。
この結果から, ネットワークは次元の呪いを克服し, 不変表現を構築できることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T09:11:09Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。