Fugu-MT 論文翻訳(概要): CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models

論文の概要: CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2310.19784v2
Date: Thu, 7 Dec 2023 15:22:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 18:13:31.775088
Title: CustomNet: Zero-shot Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models
Title（参考訳）: CustomNet: テキスト・画像拡散モデルにおける可変視点によるゼロショットオブジェクトのカスタマイズ
Authors: Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan
Abstract要約: CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
参考スコア（独自算出の注目度）: 85.69959024572363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Incorporating a customized object into image generation presents an attractive feature in text-to-image generation. However, existing optimization-based and encoder-based methods are hindered by drawbacks such as time-consuming optimization, insufficient identity preservation, and a prevalent copy-pasting effect. To overcome these limitations, we introduce CustomNet, a novel object customization approach that explicitly incorporates 3D novel view synthesis capabilities into the object customization process. This integration facilitates the adjustment of spatial position relationships and viewpoints, yielding diverse outputs while effectively preserving object identity. Moreover, we introduce delicate designs to enable location control and flexible background control through textual descriptions or specific user-defined images, overcoming the limitations of existing 3D novel view synthesis methods. We further leverage a dataset construction pipeline that can better handle real-world objects and complex backgrounds. Equipped with these designs, our method facilitates zero-shot object customization without test-time optimization, offering simultaneous control over the viewpoints, location, and background. As a result, our CustomNet ensures enhanced identity preservation and generates diverse, harmonious outputs.
Abstract（参考訳）: 画像生成にカスタマイズされたオブジェクトを組み込むことは、テキスト・画像生成において魅力的な特徴である。しかし、既存の最適化ベースおよびエンコーダベースの方法は、時間消費最適化、不十分なアイデンティティ保存、一般的なコピーペースト効果などの欠点によって妨げられている。これらの制限を克服するために、私たちは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ新しいオブジェクトカスタマイズアプローチであるCustomNetを紹介します。この統合により、空間的位置関係と視点の調整が容易になり、オブジェクトのアイデンティティを効果的に保存しながら多様な出力が得られる。さらに,既存の3次元画像合成手法の限界を克服し,テキスト記述やユーザ定義画像による位置制御やフレキシブルな背景制御を実現するための繊細な設計を提案する。さらに私たちは、現実世界のオブジェクトや複雑なバックグラウンドをよりうまく処理できるデータセット構築パイプラインを活用します。これらの設計を取り入れた本手法は,テスト時間最適化なしでゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。その結果、CustomNetはアイデンティティ保護の強化を保証し、多様な調和した出力を生成する。

関連論文リスト

Plug-and-Play Multi-Concept Adaptive Blending for High-Fidelity Text-to-Image Synthesis [0.0]
本稿では,高忠実度テキスト・トゥ・イメージ(T2I)生成のためのプラグイン・アンド・プレイマルチコンセプト・ブレンディングを提案する。本手法は,各パーソナライズされた概念の意図した外観を忠実に反映するために,ガイド付き外観注意を利用する。また,非個人化領域の整合性を維持するマスク誘導型ノイズミキシング戦略を提案する。
論文参考訳（メタデータ） (2025-11-18T12:25:47Z)
Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文参考訳（メタデータ） (2024-11-16T23:44:14Z)
DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-02T22:29:14Z)
Customizing Text-to-Image Diffusion with Camera Viewpoint Control [53.621518249820745]
モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを導入する。これにより、テキストプロンプトによって、さまざまな背景シーンのオブジェクトプロパティを変更することができます。本稿では,新しいオブジェクトのレンダリング・ビュー依存的な特徴に対して,2次元拡散過程を条件付けることを提案する。
論文参考訳（メタデータ） (2024-04-18T16:59:51Z)
SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing [51.857176097841915]
SwapAnythingは、イメージ内の任意のオブジェクトを参照によって与えられるパーソナライズされた概念に置き換えることのできる、新しいフレームワークである。 1)主主題ではなく任意の対象や部分の精密な制御,(2)コンテキスト画素のより忠実な保存,(3)イメージへのパーソナライズされた概念の適応,の3つの特徴がある。
論文参考訳（メタデータ） (2024-04-08T17:52:29Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
AttrLostGAN: Attribute Controlled Image Synthesis from Reconfigurable Layout and Style [5.912209564607099]
レイアウトから属性制御画像合成を行う方法を提案する。我々は、属性の個々のオブジェクトを条件づけるために、レイアウトから画像への生成に関する最先端のアプローチを拡張する。提案手法は,複雑なシーンを複数のオブジェクトでモデリングする際に,個々のオブジェクトの細かな詳細をうまく制御できることを示す。
論文参考訳（メタデータ） (2021-03-25T10:09:45Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。