論文の概要: CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.19784v1
- Date: Mon, 30 Oct 2023 17:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 18:39:06.989531
- Title: CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models
- Title(参考訳): CustomNet: テキスト・画像拡散モデルにおける可変視点によるゼロショットオブジェクトのカスタマイズ
- Authors: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying
Shan
- Abstract要約: CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。
テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。
本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
- 参考スコア(独自算出の注目度): 85.69959024572363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating a customized object into image generation presents an
attractive feature in text-to-image generation. However, existing
optimization-based and encoder-based methods are hindered by drawbacks such as
time-consuming optimization, insufficient identity preservation, and a
prevalent copy-pasting effect. To overcome these limitations, we introduce
CustomNet, a novel object customization approach that explicitly incorporates
3D novel view synthesis capabilities into the object customization process.
This integration facilitates the adjustment of spatial position relationships
and viewpoints, yielding diverse outputs while effectively preserving object
identity. Moreover, we introduce delicate designs to enable location control
and flexible background control through textual descriptions or specific
user-defined images, overcoming the limitations of existing 3D novel view
synthesis methods. We further leverage a dataset construction pipeline that can
better handle real-world objects and complex backgrounds. Equipped with these
designs, our method facilitates zero-shot object customization without
test-time optimization, offering simultaneous control over the viewpoints,
location, and background. As a result, our CustomNet ensures enhanced identity
preservation and generates diverse, harmonious outputs.
- Abstract(参考訳): 画像生成にカスタマイズされたオブジェクトを組み込むことは、テキスト・画像生成において魅力的な特徴である。
しかし、既存の最適化ベースおよびエンコーダベースの方法は、時間消費最適化、不十分なアイデンティティ保存、一般的なコピーペースト効果などの欠点によって妨げられている。
これらの制限を克服するために、私たちは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ新しいオブジェクトカスタマイズアプローチであるCustomNetを紹介します。
この統合により、空間的位置関係と視点の調整が容易になり、オブジェクトのアイデンティティを効果的に保存しながら多様な出力が得られる。
さらに,既存の3次元画像合成手法の限界を克服し,テキスト記述やユーザ定義画像による位置制御やフレキシブルな背景制御を実現するための繊細な設計を提案する。
さらに私たちは、現実世界のオブジェクトや複雑なバックグラウンドをよりうまく処理できるデータセット構築パイプラインを活用します。
これらの設計を取り入れた本手法は,テスト時間最適化なしでゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
その結果、CustomNetはアイデンティティ保護の強化を保証し、多様な調和した出力を生成する。
関連論文リスト
- Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - Customizing Text-to-Image Diffusion with Camera Viewpoint Control [53.621518249820745]
モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、テキストプロンプトによって、さまざまな背景シーンのオブジェクトプロパティを変更することができます。
本稿では,新しいオブジェクトのレンダリング・ビュー依存的な特徴に対して,2次元拡散過程を条件付けることを提案する。
論文 参考訳(メタデータ) (2024-04-18T16:59:51Z) - SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing [51.857176097841915]
SwapAnythingは、イメージ内の任意のオブジェクトを参照によって与えられるパーソナライズされた概念に置き換えることのできる、新しいフレームワークである。
1)主主題ではなく任意の対象や部分の精密な制御,(2)コンテキスト画素のより忠実な保存,(3)イメージへのパーソナライズされた概念の適応,の3つの特徴がある。
論文 参考訳(メタデータ) (2024-04-08T17:52:29Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - AttrLostGAN: Attribute Controlled Image Synthesis from Reconfigurable
Layout and Style [5.912209564607099]
レイアウトから属性制御画像合成を行う方法を提案する。
我々は、属性の個々のオブジェクトを条件づけるために、レイアウトから画像への生成に関する最先端のアプローチを拡張する。
提案手法は,複雑なシーンを複数のオブジェクトでモデリングする際に,個々のオブジェクトの細かな詳細をうまく制御できることを示す。
論文 参考訳(メタデータ) (2021-03-25T10:09:45Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。