論文の概要: BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion
- arxiv url: http://arxiv.org/abs/2404.04544v1
- Date: Sat, 6 Apr 2024 07:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:39:11.563197
- Title: BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion
- Title(参考訳): BeyondScene: 事前拡散による高分解能人間中心のシーン生成
- Authors: Gwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun,
- Abstract要約: BeyondSceneは、以前の制限を克服する新しいフレームワークである。
極めて高解像度(8K以上)の人間中心のシーンを、例外的なテキストイメージ対応と自然さで生成する。
BeyondSceneは、詳細なテキスト記述と自然性との対応という点で、既存の手法を超越している。
- 参考スコア(独自算出の注目度): 13.455394696524401
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating higher-resolution human-centric scenes with details and controls remains a challenge for existing text-to-image diffusion models. This challenge stems from limited training image size, text encoder capacity (limited tokens), and the inherent difficulty of generating complex scenes involving multiple humans. While current methods attempted to address training size limit only, they often yielded human-centric scenes with severe artifacts. We propose BeyondScene, a novel framework that overcomes prior limitations, generating exquisite higher-resolution (over 8K) human-centric scenes with exceptional text-image correspondence and naturalness using existing pretrained diffusion models. BeyondScene employs a staged and hierarchical approach to initially generate a detailed base image focusing on crucial elements in instance creation for multiple humans and detailed descriptions beyond token limit of diffusion model, and then to seamlessly convert the base image to a higher-resolution output, exceeding training image size and incorporating details aware of text and instances via our novel instance-aware hierarchical enlargement process that consists of our proposed high-frequency injected forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing methods in terms of correspondence with detailed text descriptions and naturalness, paving the way for advanced applications in higher-resolution human-centric scene creation beyond the capacity of pretrained diffusion models without costly retraining. Project page: https://janeyeon.github.io/beyond-scene.
- Abstract(参考訳): 高解像度の人間中心シーンを細部とコントロールで生成することは、既存のテキスト・画像拡散モデルにとって依然として課題である。
この課題は、限られたトレーニング画像サイズ、テキストエンコーダ容量(限定トークン)、複数の人間を含む複雑なシーンを生成するのが本質的に難しいことに起因する。
現行の手法ではトレーニングサイズ制限に対処しようとしたが、深刻な人工物を持った人間中心のシーンがしばしば生み出された。
そこで我々は,既存の事前学習拡散モデルを用いて,テキストイメージ対応や自然性を備えた高解像度(8K以上)の人間中心シーンを生成する,事前制限を克服する新しいフレームワークであるBeyondSceneを提案する。
BeyondSceneは、まず、複数の人間のための重要な要素と拡散モデルのトークン限界を超えた詳細な説明に焦点をあてた詳細なベースイメージを生成し、その後、ベースイメージを高解像度の出力にシームレスに変換し、トレーニング画像サイズを超越し、私たちの提案した高周波注入前方拡散と適応関節拡散からなる新しいインスタンス認識階層的拡大プロセスを介して、テキストやインスタンスの詳細な認識を組み込む、段階的かつ階層的なアプローチを採用している。
BeyondSceneは、詳細なテキスト記述と自然性との対応という点で既存の手法を超越し、高解像度の人間中心のシーン作成における高度な応用を、コストのかかる再訓練なしに事前訓練された拡散モデルの能力を超えたものにする道を開いた。
プロジェクトページ: https://janeyeon.github.io/beyond-scene.com
関連論文リスト
- Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Zero-shot Generation of Coherent Storybook from Plain Text Story using
Diffusion Models [43.32978092618245]
本稿では,ストーリーの平文からコヒーレントなストーリーブックを生成するためのニューラルパイプラインを提案する。
我々は,事前学習された大規模言語モデルとテキスト誘導型潜在拡散モデルを組み合わせて,コヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2023-02-08T06:24:06Z) - DiffDreamer: Towards Consistent Unsupervised Single-view Scene
Extrapolation with Conditional Diffusion Models [91.94566873400277]
DiffDreamerは、長いカメラ軌跡を描いた新しいビューを合成できる教師なしのフレームワークである。
画像条件付き拡散モデルでは, 従来のGAN法よりも一貫性を保ちながら, 長距離シーン外挿を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-11-22T10:06:29Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。