論文の概要: Probing the Latent Hierarchical Structure of Data via Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.13770v1
- Date: Thu, 17 Oct 2024 17:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:50.298317
- Title: Probing the Latent Hierarchical Structure of Data via Diffusion Models
- Title(参考訳): 拡散モデルによるデータの潜在階層構造の推定
- Authors: Antonio Sclocchi, Alessandro Favero, Noam Itzhak Levi, Matthieu Wyart,
- Abstract要約: 拡散モデルを用いた実験は,データの潜伏構造を探索するための有望なツールであることを示す。
我々はこの予測を、最先端拡散モデルを用いてテキストと画像の両方で確認する。
以上の結果から,潜在変数がデータにどのように現れるかを示し,これらの影響を実データで測定する方法を確立した。
- 参考スコア(独自算出の注目度): 47.56642214162824
- License:
- Abstract: High-dimensional data must be highly structured to be learnable. Although the compositional and hierarchical nature of data is often put forward to explain learnability, quantitative measurements establishing these properties are scarce. Likewise, accessing the latent variables underlying such a data structure remains a challenge. In this work, we show that forward-backward experiments in diffusion-based models, where data is noised and then denoised to generate new samples, are a promising tool to probe the latent structure of data. We predict in simple hierarchical models that, in this process, changes in data occur by correlated chunks, with a length scale that diverges at a noise level where a phase transition is known to take place. Remarkably, we confirm this prediction in both text and image datasets using state-of-the-art diffusion models. Our results show how latent variable changes manifest in the data and establish how to measure these effects in real data using diffusion models.
- Abstract(参考訳): 高次元データは、学習できるように高度に構造化されなければならない。
データの構成的・階層的な性質は、学習可能性を説明するためにしばしば取り上げられるが、これらの性質を確立する定量的な測定は少ない。
同様に、そのようなデータ構造の下にある潜伏変数にアクセスすることは、依然として困難である。
本研究では, 拡散モデルにおける前方後方実験において, データのノイズを発生させ, 新たなサンプルを生成することが, データの潜伏構造を探索するための有望なツールであることを示す。
単純な階層モデルでは、この過程において、位相遷移が既知のノイズレベルで分岐する長さスケールで相関チャンクによってデータの変化が発生することを予測する。
注目すべきは、この予測を、最先端拡散モデルを用いてテキストと画像の両方で確認することである。
以上の結果から,データに潜時変化が現れるかを示し,拡散モデルを用いて実データでこれらの効果を測定する方法を確立した。
関連論文リスト
- Scaling Laws with Hidden Structure [2.474908349649168]
近年の進歩は、テキストと画像データがそのような隠された構造を含んでいることを示唆しており、次元の呪いを和らげるのに役立つ。
本稿では,ニューラルネットワークが実際にそのような隠された因子構造を活用できるかどうかを検証するための制御された実験枠組みを提案する。
これらの潜在パターンを利用して離散分布をより効率的に学習し、モデルサイズ、隠れ分解、精度をリンクするスケーリング法則を導出することを発見した。
論文 参考訳(メタデータ) (2024-11-02T22:32:53Z) - Latent diffusion models for parameterization and data assimilation of facies-based geomodels [0.0]
拡散モデルは、ランダムノイズを特徴とする入力場から新しい地質学的実現を生成するために訓練される。
遅延拡散モデルは、ジオモデリングソフトウェアからのサンプルと視覚的に整合した実現を提供する。
論文 参考訳(メタデータ) (2024-06-21T01:32:03Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data [55.748186000425996]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
本分析は拡散モデルにおける時間とスケールの関係を特徴付ける。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Fascinating Supervisory Signals and Where to Find Them: Deep Anomaly
Detection with Scale Learning [11.245813423781415]
我々は、データラベルとして特性-スケール-を導入することで、データのための新しいデータ駆動監視を考案する。
スケールは変換された表現にアタッチされたラベルとして機能し、ニューラルネットワークのトレーニングに十分なラベル付きデータを提供する。
本稿では,大規模学習に基づく異常検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:48:00Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Data from Model: Extracting Data from Non-robust and Robust Models [83.60161052867534]
この研究は、データとモデルの関係を明らかにするために、モデルからデータを生成する逆プロセスについて検討する。
本稿では,データ・トゥ・モデル(DtM)とデータ・トゥ・モデル(DfM)を連続的に処理し,特徴マッピング情報の喪失について検討する。
以上の結果から,DtMとDfMの複数シーケンスの後にも,特にロバストモデルにおいて精度低下が制限されることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T05:27:48Z) - Variational Autoencoder with Learned Latent Structure [4.41370484305827]
学習潜在構造を持つ変分オートエンコーダ(VAELLS)について紹介する。
VAELLS は、学習可能な多様体モデルを VAE の潜在空間に組み込む。
我々は、既知の潜在構造を持つ実例でモデルを検証し、実世界のデータセット上でその能力を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。