論文の概要: OneActor: Consistent Character Generation via Cluster-Conditioned Guidance
- arxiv url: http://arxiv.org/abs/2404.10267v1
- Date: Tue, 16 Apr 2024 03:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:12:17.415916
- Title: OneActor: Consistent Character Generation via Cluster-Conditioned Guidance
- Title(参考訳): OneActor: クラスタ駆動誘導による一貫性キャラクタ生成
- Authors: Jiahao Wang, Caixia Yan, Haonan Lin, Weizhan Zhang,
- Abstract要約: 軽量だが複雑なガイダンスは機能するのに十分である、と私たちは主張する。
我々は一貫した生成の目的を定式化する新しいパラダイムであるOneActorを提案する。
我々の手法はチューニングベースのベースラインよりも少なくとも4倍高速である。
- 参考スコア(独自算出の注目度): 13.638861505008544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models benefit artists with high-quality image generation. Yet its stochastic nature prevent artists from creating consistent images of the same character. Existing methods try to tackle this challenge and generate consistent content in various ways. However, they either depend on external data or require expensive tuning of the diffusion model. For this issue, we argue that a lightweight but intricate guidance is enough to function. Aiming at this, we lead the way to formalize the objective of consistent generation, derive a clustering-based score function and propose a novel paradigm, OneActor. We design a cluster-conditioned model which incorporates posterior samples to guide the denoising trajectories towards the target cluster. To overcome the overfitting challenge shared by one-shot tuning pipelines, we devise auxiliary components to simultaneously augment the tuning and regulate the inference. This technique is later verified to significantly enhance the content diversity of generated images. Comprehensive experiments show that our method outperforms a variety of baselines with satisfactory character consistency, superior prompt conformity as well as high image quality. And our method is at least 4 times faster than tuning-based baselines. Furthermore, to our best knowledge, we first prove that the semantic space has the same interpolation property as the latent space dose. This property can serve as another promising tool for fine generation control.
- Abstract(参考訳): テキストから画像への拡散モデルは、高品質な画像生成でアーティストに恩恵を与える。
しかし、その確率的な性質は、アーティストが同じキャラクターの一貫性のあるイメージを作成することを妨げている。
既存の手法はこの課題に取り組み、様々な方法で一貫性のあるコンテンツを生成する。
しかし、それらは外部データに依存するか、拡散モデルの高価なチューニングを必要とする。
この問題に対して、軽量だが複雑なガイダンスは機能するのに十分である、と論じる。
そこで我々は,一貫した生成の目的を定式化し,クラスタリングに基づくスコア関数を導出し,新しいパラダイムであるOneActorを提案する。
本研究では, 後方サンプルを組み込んだクラスタコンディショニングモデルを設計し, 軌道を目標クラスタへ誘導する。
ワンショットチューニングパイプラインで共有される過度に適合する課題を克服するため,チューニングを同時に強化し,推論を規制する補助的なコンポーネントを考案した。
この手法は、後に生成した画像の内容の多様性を著しく向上するために検証される。
包括的実験により,本手法は,キャラクタの整合性,プロンプトの整合性,画質の向上など,様々な基礎特性に優れることがわかった。
また,本手法はチューニングベースのベースラインよりも少なくとも4倍高速である。
さらに、最もよく知る限り、セマンティック空間が潜在空間線量と同じ補間性を持つことを最初に証明する。
この特性は、ファインジェネレーション制御のためのもう1つの有望なツールとして機能する。
関連論文リスト
- Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Enhancing Consistency-Based Image Generation via Adversarialy-Trained Classification and Energy-Based Discrimination [13.238373528922194]
本稿では,一貫性に基づく画像の生成を後処理する新しい手法を提案し,その知覚的品質を向上させる。
本手法では,両部位を逆向きに訓練する共同分類器-識別器モデルを用いる。
このジョイントマシンの指導の下で、サンプル特異的な投影勾配を用いることで、合成画像を洗練し、ImageNet 64x64データセット上でFIDスコアを改良した。
論文 参考訳(メタデータ) (2024-05-25T14:53:52Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Dynamic Dual-Output Diffusion Models [100.32273175423146]
反復分解に基づく生成は、他の生成モデルのクラスに匹敵する品質を示すことが示されている。
この方法の大きな欠点は、競合する結果を生み出すために数百のイテレーションが必要であることである。
近年の研究では、より少ないイテレーションでより高速に生成できるソリューションが提案されているが、画像の品質は徐々に低下している。
論文 参考訳(メタデータ) (2022-03-08T11:20:40Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。