論文の概要: Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling
- arxiv url: http://arxiv.org/abs/2502.05743v1
- Date: Sun, 09 Feb 2025 01:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:11.478327
- Title: Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling
- Title(参考訳): 低次元モデリングによる拡散モデルの表現ダイナミクスの理解
- Authors: Xiao Li, Zekai Zhang, Xiang Li, Siyi Chen, Zhihui Zhu, Peng Wang, Qing Qu,
- Abstract要約: この研究は、拡散モデルが高品質な表現を自己指導的に学習する上で優れている理由と時期に関する問題に対処する。
我々は低次元データモデルと後続推定に基づく数学的枠組みを開発し、画像生成の最終段階に近い生成と表現品質の基本的なトレードオフを明らかにする。
これらの知見に基づいて,ノイズレベルをまたいだ特徴を集約するアンサンブル法を提案し,ラベル雑音下でのクリーンな性能とロバスト性の両方を著しく改善する。
- 参考スコア(独自算出の注目度): 25.705179111920806
- License:
- Abstract: This work addresses the critical question of why and when diffusion models, despite being designed for generative tasks, can excel at learning high-quality representations in a self-supervised manner. To address this, we develop a mathematical framework based on a low-dimensional data model and posterior estimation, revealing a fundamental trade-off between generation and representation quality near the final stage of image generation. Our analysis explains the unimodal representation dynamics across noise scales, mainly driven by the interplay between data denoising and class specification. Building on these insights, we propose an ensemble method that aggregates features across noise levels, significantly improving both clean performance and robustness under label noise. Extensive experiments on both synthetic and real-world datasets validate our findings.
- Abstract(参考訳): この研究は、なぜ拡散モデルが生成タスク用に設計されているにもかかわらず、自己監督的な方法で高品質な表現を学習できるのかという批判的な疑問に対処する。
そこで我々は,低次元データモデルと後続推定に基づく数学的枠組みを構築し,画像生成の最終段階に近い生成と表現品質の基本的なトレードオフを明らかにする。
分析では、ノイズスケールにおける一様表現のダイナミクスを概ね説明し、主にデータデノナイズとクラス仕様の相互作用によって導かれる。
これらの知見に基づいて,ノイズレベルをまたいだ特徴を集約するアンサンブル法を提案し,ラベル雑音下でのクリーンな性能とロバスト性の両方を著しく改善する。
人工と実世界の両方のデータセットに関する大規模な実験で、我々の研究結果が検証された。
関連論文リスト
- Unsupervised Composable Representations for Audio [0.9888599167642799]
現在の生成モデルは高品質な人工物を生成することができるが、構成的推論に苦しむことが示されている。
本稿では,音楽データに対する合成表現学習の課題,特に教師なし設定を対象とする問題に焦点をあてる。
本稿では、フレキシブルな自動符号化目的によって定義される、明示的な構成帰納バイアスを利用するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-19T08:41:09Z) - SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder [13.453138169497903]
SeNM-VAEは、ペアとアンペアの両方のデータセットを利用して、現実的な劣化データを生成する半教師付きノイズモデリング手法である。
実世界の画像認識と超分解能タスクのためのペアトレーニングサンプルを生成するために,本手法を用いた。
提案手法は, 合成劣化画像の品質を, 他の不対とペアのノイズモデリング法と比較して向上させる。
論文 参考訳(メタデータ) (2024-03-26T09:03:40Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Scaling Rectified Flow Transformers for High-Resolution Image Synthesis [22.11487736315616]
整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。
我々は,既存のノイズサンプリング手法を改良し,それらを知覚的に関係のあるスケールに偏りを持たせることにより,整流モデルの訓練を行う。
本稿では,2つのモードの重みを分離したテキスト・画像生成のためのトランスフォーマー・ベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-05T18:45:39Z) - The Uncanny Valley: A Comprehensive Analysis of Diffusion Models [1.223779595809275]
拡散モデル (DM) は高品質な画像の生成に大きな進歩をもたらした。
ノイズスケジュールやサンプル,ガイダンスなど,さまざまなDMアーキテクチャのキーとなる側面について検討する。
比較分析の結果,拡散確率モデル(DDPM)に基づく拡散力学はノイズ条件付きスコアネットワーク(NCSN)より一貫して優れていた。
論文 参考訳(メタデータ) (2024-02-20T20:49:22Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - Perception Prioritized Training of Diffusion Models [34.674477039333475]
ある種のノイズレベルで破損したデータを復元することは、モデルがリッチな視覚概念を学習するための適切な前提を提供することを示す。
目的関数の重み付け方式を再設計することにより、トレーニング中の他のレベルよりも騒音レベルを優先することを提案する。
論文 参考訳(メタデータ) (2022-04-01T06:22:23Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。