論文の概要: OneActor: Consistent Character Generation via Cluster-Conditioned Guidance
- arxiv url: http://arxiv.org/abs/2404.10267v3
- Date: Sat, 7 Sep 2024 10:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 02:52:35.484205
- Title: OneActor: Consistent Character Generation via Cluster-Conditioned Guidance
- Title(参考訳): OneActor: クラスタ駆動誘導による一貫性キャラクタ生成
- Authors: Jiahao Wang, Caixia Yan, Haonan Lin, Weizhan Zhang, Mengmeng Wang, Tieliang Gong, Guang Dai, Hao Sun,
- Abstract要約: 我々はOneActorと呼ばれる新しいワンショットチューニングパラダイムを提案する。
プロンプトのみによって駆動される一貫した主題生成を効率よく行う。
提案手法は多目的生成が可能であり, 一般的な拡散拡張と互換性がある。
- 参考スコア(独自算出の注目度): 29.426558840522734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models benefit artists with high-quality image generation. Yet their stochastic nature hinders artists from creating consistent images of the same subject. Existing methods try to tackle this challenge and generate consistent content in various ways. However, they either depend on external restricted data or require expensive tuning of the diffusion model. For this issue, we propose a novel one-shot tuning paradigm, termed as OneActor. It efficiently performs consistent subject generation solely driven by prompts via a learned semantic guidance to bypass the laborious backbone tuning. We lead the way to formalize the objective of consistent subject generation from a clustering perspective, and thus design a cluster-conditioned model. To mitigate the overfitting challenge shared by one-shot tuning pipelines, we augment the tuning with auxiliary samples and devise two inference strategies: semantic interpolation and cluster guidance. These techniques are later verified to significantly enhance the generation quality. Comprehensive experiments show that our method outperforms a variety of baselines with satisfactory subject consistency, superior prompt conformity as well as high image quality. Our method is capable of multi-subject generation and compatible with popular diffusion extensions. Besides, we achieve a 4 times faster tuning speed than tuning-based baselines and, if desired, avoid increasing inference time. Furthermore, to our best knowledge, we are the first to prove that the semantic space of the diffusion model has the same interpolation property as the latent space does. This property can serve as another promising tool for fine generation control.
- Abstract(参考訳): テキストから画像への拡散モデルは、高品質な画像生成でアーティストに恩恵を与える。
しかし、彼らの確率的な性質は、アーティストが同じ主題の一貫性のあるイメージを作成するのを妨げる。
既存の手法はこの課題に取り組み、様々な方法で一貫性のあるコンテンツを生成する。
しかし、それらは外部の制限されたデータに依存するか、拡散モデルの高価なチューニングを必要とする。
本稿では,OneActorと呼ばれる新しいワンショットチューニングパラダイムを提案する。
学習したセマンティックガイダンスを通じてのみプロンプトによって駆動される一貫した主題生成を効率よく実行し、面倒なバックボーンチューニングを回避します。
我々は、クラスタリングの観点から一貫した主題生成の目的を定式化し、クラスタ条件モデルの設計を導く。
ワンショットチューニングパイプラインが共有するオーバーフィッティングの課題を軽減するため、補助的なサンプルによるチューニングを強化し、セマンティック補間とクラスタガイダンスという2つの推論戦略を考案する。
これらの技術は後に、生成品質を著しく向上させるために検証される。
包括的実験により,本手法は,良好な主観的整合性,即時整合性,高画質で,様々なベースラインに優れることが示された。
提案手法は多目的生成が可能であり, 一般的な拡散拡張と互換性がある。
さらに、チューニングベースのベースラインよりも4倍高速なチューニング速度を実現し、望めば推論時間の増加を回避できる。
さらに、我々の知る限り、拡散モデルの意味空間が潜在空間と同じ補間性を持っていることを初めて証明する。
この特性は、ファインジェネレーション制御のためのもう1つの有望なツールとして機能する。
関連論文リスト
- Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Enhancing Consistency-Based Image Generation via Adversarialy-Trained Classification and Energy-Based Discrimination [13.238373528922194]
本稿では,一貫性に基づく画像の生成を後処理する新しい手法を提案し,その知覚的品質を向上させる。
本手法では,両部位を逆向きに訓練する共同分類器-識別器モデルを用いる。
このジョイントマシンの指導の下で、サンプル特異的な投影勾配を用いることで、合成画像を洗練し、ImageNet 64x64データセット上でFIDスコアを改良した。
論文 参考訳(メタデータ) (2024-05-25T14:53:52Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。