論文の概要: From Text to Pose to Image: Improving Diffusion Model Control and Quality
- arxiv url: http://arxiv.org/abs/2411.12872v1
- Date: Tue, 19 Nov 2024 21:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:38.638428
- Title: From Text to Pose to Image: Improving Diffusion Model Control and Quality
- Title(参考訳): テキストから詩へ:拡散モデル制御と品質の改善
- Authors: Clément Bonnett, Ariel N. Lee, Franck Wertel, Antoine Tamano, Tanguy Cizain, Pablo Ducru,
- Abstract要約: 提案手法では,新しいサンプリングアルゴリズムとともにテキスト・ツー・プレイス(T2P)生成モデルを導入し,ポーズの忠実度を高めるためにより多くのポーズ・キーポイントを組み込んだ新しいポーズ・アダプタを提案する。
これら2つの新しい最先端モデルによって、拡散モデルにおける高ポーズ制御のための生成的テキスト・ツー・プレイス・ツー・イメージ・フレームワークが、初めて実現された。
- 参考スコア(独自算出の注目度): 0.5183511047901651
- License:
- Abstract: In the last two years, text-to-image diffusion models have become extremely popular. As their quality and usage increase, a major concern has been the need for better output control. In addition to prompt engineering, one effective method to improve the controllability of diffusion models has been to condition them on additional modalities such as image style, depth map, or keypoints. This forms the basis of ControlNets or Adapters. When attempting to apply these methods to control human poses in outputs of text-to-image diffusion models, two main challenges have arisen. The first challenge is generating poses following a wide range of semantic text descriptions, for which previous methods involved searching for a pose within a dataset of (caption, pose) pairs. The second challenge is conditioning image generation on a specified pose while keeping both high aesthetic and high pose fidelity. In this article, we fix these two main issues by introducing a text-to-pose (T2P) generative model alongside a new sampling algorithm, and a new pose adapter that incorporates more pose keypoints for higher pose fidelity. Together, these two new state-of-the-art models enable, for the first time, a generative text-to-pose-to-image framework for higher pose control in diffusion models. We release all models and the code used for the experiments at https://github.com/clement-bonnet/text-to-pose.
- Abstract(参考訳): この2年間で、テキストと画像の拡散モデルは非常に人気がある。
品質と使用量の増加に伴い、アウトプットコントロールの改善の必要性が大きな懸念事項となっている。
迅速な工学に加え、拡散モデルの制御性を改善する効果的な方法は、画像スタイル、深度マップ、キーポイントなどの追加のモダリティでそれらを条件付けることである。
これは ControlNets または Adapters の基礎となる。
テキスト・ツー・イメージ拡散モデルの出力における人間のポーズ制御にこれらの手法を適用しようとすると、2つの大きな課題が生じる。
最初の課題は、(カプセル、ポーズ)ペアのデータセット内のポーズを検索する以前の方法を含む、幅広いセマンティックテキスト記述に続くポーズを生成することである。
第2の課題は、高美的かつ高ポーズの忠実さを維持しながら、特定のポーズに画像生成を条件付けることである。
本稿では,新しいサンプリングアルゴリズムとともにテキスト・ツー・プレイス(T2P)生成モデルを導入することで,これらの2つの主要な問題を解消する。
これら2つの新しい最先端モデルによって、拡散モデルにおける高ポーズ制御のための生成的テキスト・ツー・プレイス・ツー・イメージ・フレームワークが、初めて実現された。
実験に使われたすべてのモデルとコードはhttps://github.com/clement-bonnet/text-to-pose.comで公開しています。
関連論文リスト
- GUNet: A Graph Convolutional Network United Diffusion Model for Stable and Diversity Pose Generation [7.0646249774097525]
本稿では,GUNet をメインモデルとするフレームワーク PoseDiffusion を提案する。
拡散モデルに基づく最初の生成フレームワークであり、安定拡散モデルに基づいて微調整された一連の変種も含む。
PoseDiffusionはテキスト駆動のポーズスケルトン生成の安定性と多様性の観点から,既存のSoTAアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T04:05:59Z) - Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation [29.79050316749927]
ポーズ条件付き人体画像生成に新たなアプローチを導入し,その過程を2段階に分けた。
両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。
提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。
論文 参考訳(メタデータ) (2024-03-15T23:31:41Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - SingleInsert: Inserting New Concepts from a Single Image into
Text-to-Image Models for Flexible Editing [59.3017821001455]
SingleInsert(シングルインサート)は、イメージ・トゥ・テキスト(I2T)のインバージョン手法であり、同じ概念を含む単一のソースイメージを持つ。
本研究では,SingleInsertという,シングルイメージI2Tインバージョンのためのシンプルで効果的なベースラインを提案する。
提案手法により、SingleInsertは、フレキシブルな編集を可能にしながら、高い視覚的忠実度でシングルコンセプト生成に優れる。
論文 参考訳(メタデータ) (2023-10-12T07:40:39Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - UPGPT: Universal Diffusion Model for Person Image Generation, Editing
and Pose Transfer [15.15576618501609]
テキスト・ツー・イメージ・モデル(T2I)は、人々の高品質な画像を生成するために使われてきた。
しかし、生成プロセスのランダムな性質のため、その人は外見が異なる。
テキスト,ポーズ,視覚的プロンプトを受け入れるマルチモーダル拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-18T10:05:37Z) - Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free
Videos [107.65147103102662]
本研究では、ポーズ制御可能なキャラクタビデオを得るために、データセット(ポーズペアとポーズフリービデオ)と事前訓練されたテキスト・ツー・イメージ(T2I)モデルを利用する。
具体的には、第1段階では、キーポイントと画像のペアのみが制御可能なテキストと画像の生成にのみ使用される。
第2段階では、学習可能な時間的自己アテンションと修正されたクロスフレーム自己アテンションブロックを追加することで、ポーズのないビデオデータセットを介して、上記のネットワークの動きを微調整する。
論文 参考訳(メタデータ) (2023-04-03T17:55:14Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。