論文の概要: Boundary Guided Learning-Free Semantic Control with Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.08357v2
- Date: Fri, 13 Oct 2023 18:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 05:57:45.249993
- Title: Boundary Guided Learning-Free Semantic Control with Diffusion Models
- Title(参考訳): 拡散モデルを用いた境界案内学習自由意味制御
- Authors: Ye Zhu, Yu Wu, Zhiwei Deng, Olga Russakovsky, Yan Yan
- Abstract要約: 凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。
我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
- 参考スコア(独自算出の注目度): 44.37803942479853
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Applying pre-trained generative denoising diffusion models (DDMs) for
downstream tasks such as image semantic editing usually requires either
fine-tuning DDMs or learning auxiliary editing networks in the existing
literature. In this work, we present our BoundaryDiffusion method for
efficient, effective and light-weight semantic control with frozen pre-trained
DDMs, without learning any extra networks. As one of the first learning-free
diffusion editing works, we start by seeking a comprehensive understanding of
the intermediate high-dimensional latent spaces by theoretically and
empirically analyzing their probabilistic and geometric behaviors in the Markov
chain. We then propose to further explore the critical step for editing in the
denoising trajectory that characterizes the convergence of a pre-trained DDM
and introduce an automatic search method. Last but not least, in contrast to
the conventional understanding that DDMs have relatively poor semantic
behaviors, we prove that the critical latent space we found already exhibits
semantic subspace boundaries at the generic level in unconditional DDMs, which
allows us to do controllable manipulation by guiding the denoising trajectory
towards the targeted boundary via a single-step operation. We conduct extensive
experiments on multiple DPMs architectures (DDPM, iDDPM) and datasets (CelebA,
CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) with different resolutions (64,
256), achieving superior or state-of-the-art performance in various task
scenarios (image semantic editing, text-based editing, unconditional semantic
control) to demonstrate the effectiveness.
- Abstract(参考訳): 画像意味編集のような下流タスクに予め訓練された生成的分別拡散モデル(ddm)を適用するには、通常、既存の文献において微調整されたddmまたは補助編集ネットワークの学習が必要となる。
本研究では,フリーズドトレーニングDDMを用いた効率的な,効率的かつ軽量なセマンティック制御のための境界拡散法を提案する。
最初の学習自由拡散編集作業として、マルコフ連鎖における確率的および幾何学的挙動を理論的かつ実験的に解析することにより、中間高次元潜在空間の包括的理解を求めることから始める。
そこで本研究では,事前学習されたddmの収束を特徴付けるデノイジング軌道における編集のクリティカルステップをさらに探究し,自動探索法を提案する。
最後に、DDMが比較的貧弱な意味的振る舞いを持つという従来の理解とは対照的に、我々が発見した臨界潜在空間は、無条件DDMの一般的なレベルで意味的部分空間境界をすでに示しており、単一ステップの操作によって目標境界への指示軌道を誘導することで制御可能な操作を可能にする。
我々は,複数のDPMアーキテクチャ (DDPM, iDDPM) とデータセット (CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) の様々な解像度 (64, 256) を用いて,様々なタスクシナリオ(画像セマンティック編集,テキストベース編集,非条件セマンティック制御) において,優れた,あるいは最先端のパフォーマンスを実現し,その効果を示す。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - SCA: Highly Efficient Semantic-Consistent Unrestricted Adversarial Attack [29.744970741737376]
我々はセマンティック・コンスタント・アンリミスタント・アンリミテッド・アタック(SCA)と呼ばれる新しいフレームワークを提案する。
SCAは、編集しやすいノイズマップを抽出するために反転法を採用し、意味的なガイダンスを提供するためにMLLM(Multimodal Large Language Model)を使用している。
我々のフレームワークは、最小限の識別可能な意味変化を示す敵例の効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-10-03T06:25:53Z) - Enabling Local Editing in Diffusion Models by Joint and Individual Component Analysis [18.755311950243737]
拡散モデル(DM)の潜伏空間は、GAN(Generative Adversarial Networks)ほど理解されていない。
最近の研究は、DMの潜在領域における教師なし意味発見に焦点を当てている。
本稿では,事前学習したDMの認知ネットワークから学習した潜在意味論を分解する教師なし手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T18:21:50Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Denoising Task Routing for Diffusion Models [19.373733104929325]
拡散モデルは、多段階の復調過程を学習することにより、非常にリアルな画像を生成する。
拡散モデルとマルチタスク学習(MTL)の間に固有のつながりがあるにもかかわらず、ニューラルネットワークの設計には未解明領域が残っている。
本稿では,既存の拡散モデルアーキテクチャのためのシンプルなアドオン戦略であるDenoising Task Routing(DTR)について述べる。
論文 参考訳(メタデータ) (2023-10-11T02:23:18Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Discovering Interpretable Directions in the Semantic Latent Space of Diffusion Models [21.173910627285338]
DDM(Denoising Diffusion Models)は、GAN(Generative Adversarial Networks)の強力な競合相手として登場した。
本稿では,h-spaceの特性について検討し,その中に意味のある意味的方向を求めるための新しい手法を提案する。
私たちのアプローチは、アーキテクチャの変更、テキストベースのガイダンス、CLIPベースの最適化、モデル微調整を必要とせずに適用できます。
論文 参考訳(メタデータ) (2023-03-20T12:59:32Z) - Semi-supervised Domain Adaptation for Semantic Segmentation [3.946367634483361]
セマンティックセグメンテーションにおけるクロスドメインとイントラドメインのギャップに対処する2段階の半教師付き二重ドメイン適応(SSDDA)手法を提案する。
提案手法は,2つの共通合成-実合成セマンティックセグメンテーションベンチマークにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-20T16:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。