論文の概要: SceneBooth: Diffusion-based Framework for Subject-preserved Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2501.03490v1
- Date: Tue, 07 Jan 2025 03:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:37.968391
- Title: SceneBooth: Diffusion-based Framework for Subject-preserved Text-to-Image Generation
- Title(参考訳): SceneBooth: 被写体保存テキスト・画像生成のための拡散型フレームワーク
- Authors: Shang Chai, Zihang Lin, Min Zhou, Xubin Li, Liansheng Zhuang, Houqiang Li,
- Abstract要約: 既存の手法では、しばしば主題表現を学習し、画像生成を誘導するプロンプト埋め込みに組み込む。
本稿では,SceneBooth という新しいフレームワークを主題保存型テキスト・画像生成に適用する。
我々のSceneBoothは、与えられた主題の画像を修正し、テキストプロンプトによってガイドされた背景画像を生成する。
- 参考スコア(独自算出の注目度): 46.43776651071455
- License:
- Abstract: Due to the demand for personalizing image generation, subject-driven text-to-image generation method, which creates novel renditions of an input subject based on text prompts, has received growing research interest. Existing methods often learn subject representation and incorporate it into the prompt embedding to guide image generation, but they struggle with preserving subject fidelity. To solve this issue, this paper approaches a novel framework named SceneBooth for subject-preserved text-to-image generation, which consumes inputs of a subject image, object phrases and text prompts. Instead of learning the subject representation and generating a subject, our SceneBooth fixes the given subject image and generates its background image guided by the text prompts. To this end, our SceneBooth introduces two key components, i.e., a multimodal layout generation module and a background painting module. The former determines the position and scale of the subject by generating appropriate scene layouts that align with text captions, object phrases, and subject visual information. The latter integrates two adapters (ControlNet and Gated Self-Attention) into the latent diffusion model to generate a background that harmonizes with the subject guided by scene layouts and text descriptions. In this manner, our SceneBooth ensures accurate preservation of the subject's appearance in the output. Quantitative and qualitative experimental results demonstrate that SceneBooth significantly outperforms baseline methods in terms of subject preservation, image harmonization and overall quality.
- Abstract(参考訳): 画像生成のパーソナライズ要求により,テキストプロンプトに基づく入力対象の新たなリフレクションを生成する対象駆動のテキスト・ツー・イメージ生成法が研究の関心を集めている。
既存の手法は、しばしば主題表現を学習し、画像生成を誘導するための即時埋め込みに組み込むが、被験者の忠実性を維持するのに苦労する。
そこで本研究では,対象画像,対象フレーズ,テキストプロンプトの入力を消費するテキスト・ツー・イメージ生成のためのSceneBoothという新しいフレームワークを提案する。
我々のSceneBoothは、対象の表現を学習して主題を生成する代わりに、与えられた対象の画像を修正し、テキストプロンプトによって導かれる背景画像を生成する。
この目的のために、SceneBoothでは、マルチモーダルレイアウト生成モジュールとバックグラウンドペインティングモジュールという、2つの重要なコンポーネントを導入しています。
前者は、テキストキャプション、オブジェクトフレーズ、および被写体視覚情報と整合した適切なシーンレイアウトを生成することにより、被写体の位置と規模を決定する。
後者は2つのアダプタ(ControlNetとGated Self-Attention)を潜在拡散モデルに統合し、シーンレイアウトとテキスト記述でガイドされた主題と調和する背景を生成する。
このようにして、私たちのSceneBoothは、出力における被験者の外観の正確な保存を保証します。
定量的および定性的な実験結果から,SceneBoothは主観的保存,画像調和,全体的な品質において,ベースライン法よりも有意に優れていた。
関連論文リスト
- Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Nested Attention: Semantic-aware Attention Values for Concept Personalization [78.90196530697897]
我々はNested Attentionを紹介した。これはモデル内の既存のクロスアテンション層にリッチで表現豊かなイメージ表現を注入する新しいメカニズムである。
私たちのキーとなるアイデアは、ネストした注意層から得られたクエリ依存の主観値を生成し、生成した画像の各領域について関連する主観的特徴を選択することである。
論文 参考訳(メタデータ) (2025-01-02T18:52:11Z) - Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator [44.620847608977776]
ディプチッチ・プロンプティング(Diptych Prompting)は、被写体を正確にアライメントした塗装タスクとして再解釈する、新しいゼロショットアプローチである。
提案手法は主観的画像生成だけでなく, 主観的画像生成と主観的画像編集もサポートする。
論文 参考訳(メタデータ) (2024-11-23T06:17:43Z) - GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。
提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - DreamInpainter: Text-Guided Subject-Driven Image Inpainting with
Diffusion Models [37.133727797607676]
本研究は,テキストガイドによる主題駆動画像の描画について紹介する。
我々は、被写体再現の精度を確保するために、密集した被写体特徴を計算する。
我々は、余分な被写体の詳細を排除するために識別トークン選択モジュールを使用します。
論文 参考訳(メタデータ) (2023-12-05T22:23:19Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。