論文の概要: Varying Manifolds in Diffusion: From Time-varying Geometries to Visual Saliency
- arxiv url: http://arxiv.org/abs/2406.18588v1
- Date: Fri, 7 Jun 2024 07:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 05:40:31.444552
- Title: Varying Manifolds in Diffusion: From Time-varying Geometries to Visual Saliency
- Title(参考訳): 拡散におけるバリアリング多様体:時変測地から視覚塩分率へ
- Authors: Junhao Chen, Manyi Li, Zherong Pan, Xifeng Gao, Changhe Tu,
- Abstract要約: 前方拡散過程と逆生成過程が多様体上の一連の分布を構成する拡散モデルの幾何学的性質について検討する。
生成速度は画像成分の視覚的明瞭度などの直感的な視覚特性と高い相関性を示す。
本稿では,画像成分の生成速度を時間とともに推定し,生成曲線を導出する効率的かつ微分可能な手法を提案する。
- 参考スコア(独自算出の注目度): 25.632973225129728
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep generative models learn the data distribution, which is concentrated on a low-dimensional manifold. The geometric analysis of distribution transformation provides a better understanding of data structure and enables a variety of applications. In this paper, we study the geometric properties of the diffusion model, whose forward diffusion process and reverse generation process construct a series of distributions on manifolds which vary over time. Our key contribution is the introduction of generation rate, which corresponds to the local deformation of manifold over time around an image component. We show that the generation rate is highly correlated with intuitive visual properties, such as visual saliency, of the image component. Further, we propose an efficient and differentiable scheme to estimate the generation rate for a given image component over time, giving rise to a generation curve. The differentiable nature of our scheme allows us to control the shape of the generation curve via optimization. Using different loss functions, our generation curve matching algorithm provides a unified framework for a range of image manipulation tasks, including semantic transfer, object removal, saliency manipulation, image blending, etc. We conduct comprehensive analytical evaluations to support our findings and evaluate our framework on various manipulation tasks. The results show that our method consistently leads to better manipulation results, compared to recent baselines.
- Abstract(参考訳): 深部生成モデルは低次元多様体に集中したデータ分布を学習する。
分布変換の幾何学的解析は、データ構造をよりよく理解し、様々な応用を可能にする。
本稿では,前方拡散過程と逆生成過程が時間とともに変化する多様体上の一連の分布を構成する拡散モデルの幾何学的性質について検討する。
我々の重要な貢献は生成率の導入であり、これは画像成分の周りの時間とともに多様体の局所的な変形に対応する。
生成速度は画像成分の視覚的明瞭度などの直感的な視覚特性と高い相関性を示す。
さらに,画像成分の生成速度を時間とともに推定し,生成曲線を導出する,効率的かつ微分可能な手法を提案する。
このスキームの微分可能な性質により、最適化により生成曲線の形状を制御できる。
我々の生成曲線マッチングアルゴリズムは、異なる損失関数を用いて、セマンティックトランスファー、オブジェクト削除、サリエンシ操作、画像ブレンディングなどを含む、さまざまな画像操作タスクのための統一されたフレームワークを提供する。
本研究は,本研究の成果を支える総合的な分析評価を行い,様々な操作課題における枠組みの評価を行う。
その結果,本手法は最近のベースラインに比べて操作性の向上につながることがわかった。
関連論文リスト
- Edge-preserving noise for diffusion models [4.435514696080208]
本稿では,拡散確率モデル(DDPM)を一般化した新しいエッジ保存拡散モデルを提案する。
特に、エッジ保存と等方性ガウスノイズの間で異なるエッジ対応ノイズスケジューラを導入する。
モデルの生成過程はより高速に収束し, 対象の分布とより密に一致していることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:29:52Z) - A Phase Transition in Diffusion Models Reveals the Hierarchical Nature
of Data [55.748186000425996]
最近の進歩は、拡散モデルが高品質な画像を生成することを示している。
我々はこの現象を階層的なデータ生成モデルで研究する。
本分析は拡散モデルにおける時間とスケールの関係を特徴付ける。
論文 参考訳(メタデータ) (2024-02-26T19:52:33Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Score-based Generative Modeling of Graphs via the System of Stochastic
Differential Equations [57.15855198512551]
本稿では,連続時間フレームワークを用いたグラフのスコアベース生成モデルを提案する。
本手法は, トレーニング分布に近い分子を生成できるが, 化学価数則に違反しないことを示す。
論文 参考訳(メタデータ) (2022-02-05T08:21:04Z) - NeurInt : Learning to Interpolate through Neural ODEs [18.104328632453676]
本稿では,2つの画像間の軌跡分布を学習する新しい生成モデルを提案する。
提案手法の有効性を示すとともに,画像の品質向上と,実画像と対象画像の任意のペアに対して,スムーズな軌道上の多様な分布を学習する能力を示す。
論文 参考訳(メタデータ) (2021-11-07T16:31:18Z) - The Geometry of Deep Generative Image Models and its Applications [0.0]
generative adversarial networks (gans) は、実世界のデータセットの統計パターンをモデル化する強力な教師なし手法として登場した。
これらのネットワークは、潜在空間内のランダムな入力を学習データを表す新しいサンプルにマップするように訓練される。
潜在空間の構造は、その高い寸法性と発電機の非線形性のために内挿しが困難である。
論文 参考訳(メタデータ) (2021-01-15T07:57:33Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Network Bending: Expressive Manipulation of Deep Generative Models [0.2062593640149624]
ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。
生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。
論文 参考訳(メタデータ) (2020-05-25T21:48:45Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z) - Generalizing Convolutional Neural Networks for Equivariance to Lie
Groups on Arbitrary Continuous Data [52.78581260260455]
任意の特定のリー群からの変換に同値な畳み込み層を構築するための一般的な方法を提案する。
同じモデルアーキテクチャを画像、ボール・アンド・スティック分子データ、ハミルトン力学系に適用する。
論文 参考訳(メタデータ) (2020-02-25T17:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。