論文の概要: CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.19784v2
- Date: Thu, 7 Dec 2023 15:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:13:31.775088
- Title: CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models
- Title(参考訳): CustomNet: テキスト・画像拡散モデルにおける可変視点によるゼロショットオブジェクトのカスタマイズ
- Authors: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying
Shan
- Abstract要約: CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。
テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。
本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
- 参考スコア(独自算出の注目度): 85.69959024572363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating a customized object into image generation presents an
attractive feature in text-to-image generation. However, existing
optimization-based and encoder-based methods are hindered by drawbacks such as
time-consuming optimization, insufficient identity preservation, and a
prevalent copy-pasting effect. To overcome these limitations, we introduce
CustomNet, a novel object customization approach that explicitly incorporates
3D novel view synthesis capabilities into the object customization process.
This integration facilitates the adjustment of spatial position relationships
and viewpoints, yielding diverse outputs while effectively preserving object
identity. Moreover, we introduce delicate designs to enable location control
and flexible background control through textual descriptions or specific
user-defined images, overcoming the limitations of existing 3D novel view
synthesis methods. We further leverage a dataset construction pipeline that can
better handle real-world objects and complex backgrounds. Equipped with these
designs, our method facilitates zero-shot object customization without
test-time optimization, offering simultaneous control over the viewpoints,
location, and background. As a result, our CustomNet ensures enhanced identity
preservation and generates diverse, harmonious outputs.
- Abstract(参考訳): 画像生成にカスタマイズされたオブジェクトを組み込むことは、テキスト・画像生成において魅力的な特徴である。
しかし、既存の最適化ベースおよびエンコーダベースの方法は、時間消費最適化、不十分なアイデンティティ保存、一般的なコピーペースト効果などの欠点によって妨げられている。
これらの制限を克服するために、私たちは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ新しいオブジェクトカスタマイズアプローチであるCustomNetを紹介します。
この統合により、空間的位置関係と視点の調整が容易になり、オブジェクトのアイデンティティを効果的に保存しながら多様な出力が得られる。
さらに,既存の3次元画像合成手法の限界を克服し,テキスト記述やユーザ定義画像による位置制御やフレキシブルな背景制御を実現するための繊細な設計を提案する。
さらに私たちは、現実世界のオブジェクトや複雑なバックグラウンドをよりうまく処理できるデータセット構築パイプラインを活用します。
これらの設計を取り入れた本手法は,テスト時間最適化なしでゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
その結果、CustomNetはアイデンティティ保護の強化を保証し、多様な調和した出力を生成する。
関連論文リスト
- LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion
Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。
1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-11T19:59:43Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - A Neural Space-Time Representation for Text-to-Image Personalization [46.772764467280986]
テキスト・ツー・イメージのパーソナライズ手法の重要な側面は、生成プロセス内でターゲット概念が表現される方法である。
本稿では,デノナイジングプロセスの時間ステップ(時間)とデノナイジングU-Netレイヤ(空間)の両方に依存する新しいテキストコンディショニング空間について検討する。
時空表現における単一の概念は、時間と空間の組み合わせごとに数百のベクトルで構成されており、この空間を直接最適化することは困難である。
論文 参考訳(メタデータ) (2023-05-24T17:53:07Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - AttrLostGAN: Attribute Controlled Image Synthesis from Reconfigurable
Layout and Style [5.912209564607099]
レイアウトから属性制御画像合成を行う方法を提案する。
我々は、属性の個々のオブジェクトを条件づけるために、レイアウトから画像への生成に関する最先端のアプローチを拡張する。
提案手法は,複雑なシーンを複数のオブジェクトでモデリングする際に,個々のオブジェクトの細かな詳細をうまく制御できることを示す。
論文 参考訳(メタデータ) (2021-03-25T10:09:45Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。