論文の概要: Customizing Text-to-Image Diffusion with Object Viewpoint Control
- arxiv url: http://arxiv.org/abs/2404.12333v2
- Date: Mon, 02 Dec 2024 21:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:39:08.421417
- Title: Customizing Text-to-Image Diffusion with Object Viewpoint Control
- Title(参考訳): オブジェクト視点制御によるテキスト・画像拡散のカスタマイズ
- Authors: Nupur Kumari, Grace Su, Richard Zhang, Taesung Park, Eli Shechtman, Jun-Yan Zhu,
- Abstract要約: テキストから画像への拡散モデルのカスタマイズにおいて、オブジェクト視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、カスタムオブジェクトのプロパティを変更し、テキストプロンプトを通じて、さまざまなバックグラウンドシーンでそれを生成することができます。
本稿では,対象視点からレンダリングした3次元オブジェクトの特徴に拡散過程を規定する。
- 参考スコア(独自算出の注目度): 53.621518249820745
- License:
- Abstract: Model customization introduces new concepts to existing text-to-image models, enabling the generation of these new concepts/objects in novel contexts. However, such methods lack accurate camera view control with respect to the new object, and users must resort to prompt engineering (e.g., adding ``top-view'') to achieve coarse view control. In this work, we introduce a new task -- enabling explicit control of the object viewpoint in the customization of text-to-image diffusion models. This allows us to modify the custom object's properties and generate it in various background scenes via text prompts, all while incorporating the object viewpoint as an additional control. This new task presents significant challenges, as one must harmoniously merge a 3D representation from the multi-view images with the 2D pre-trained model. To bridge this gap, we propose to condition the diffusion process on the 3D object features rendered from the target viewpoint. During training, we fine-tune the 3D feature prediction modules to reconstruct the object's appearance and geometry, while reducing overfitting to the input multi-view images. Our method outperforms existing image editing and model customization baselines in preserving the custom object's identity while following the target object viewpoint and the text prompt.
- Abstract(参考訳): モデルカスタマイズは、既存のテキスト・ツー・イメージモデルに新しい概念を導入し、新しいコンテキストにおけるこれらの新しい概念/オブジェクトの生成を可能にする。
しかし,このような手法では新しいオブジェクトに対して正確なカメラビューコントロールが欠如しており,ユーザーは粗いビューコントロールを実現するために,エンジニアリング(例えば "top-view'' の追加など)を促さなければならない。
本研究では,テキストから画像への拡散モデルのカスタマイズにおいて,オブジェクト視点の明示的な制御を可能にする新しいタスクを提案する。
これにより、カスタムオブジェクトのプロパティを変更して、テキストプロンプトを通じて、さまざまなバックグラウンドシーンで生成することができます。
この新たな課題は、マルチビュー画像から2次元事前学習モデルに3次元表現を調和的にマージする必要があるため、大きな課題をもたらす。
このギャップを埋めるために、ターゲット視点からレンダリングされた3次元オブジェクトの特徴に拡散過程を条件付けることを提案する。
トレーニング中、3次元特徴予測モジュールを微調整し、オブジェクトの外観や形状を再構成し、入力されたマルチビュー画像への過度な適合を低減した。
本手法は,対象オブジェクトの視点とテキストプロンプトを追従しながら,対象オブジェクトのアイデンティティを保存する際に,既存の画像編集・モデルカスタマイズベースラインよりも優れる。
関連論文リスト
- Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation [44.18315132571804]
インタラクティブな3次元レイアウト制御によるテキスト・ツー・イメージ(T2I)生成のための拡散型アプローチを提案する。
レイアウト制御に使用される従来の2Dボックスを3Dボックスに置き換える。
我々は,T2Iタスクを多段階生成プロセスとして再設計し,各段階において,オブジェクトを初期から保存しながら3次元に挿入,変更,移動することが可能となる。
論文 参考訳(メタデータ) (2024-08-27T07:01:56Z) - Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models [32.51506331929564]
本研究では,物体ごとの表現,ニューラルアセットを用いてシーン内の個々の物体の3次元ポーズを制御することを提案する。
本モデルでは,合成3次元シーンデータセットと実世界の2つのビデオデータセットを用いて,最先端のマルチオブジェクト編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-13T16:29:18Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - DreamComposer: Controllable 3D Object Generation via Multi-View Conditions [45.4321454586475]
最近の作品では、ワン・イン・ザ・ワイルド画像から高品質なノベルビューを生成することができる。
複数の視点からの情報がないため、これらは制御可能な新しい視点を生み出すのに困難に直面する。
我々はDreamComposerについて述べる。DreamComposerはフレキシブルでスケーラブルなフレームワークで、マルチビュー条件を注入することで既存のビュー認識拡散モデルを強化することができる。
論文 参考訳(メタデータ) (2023-12-06T16:55:53Z) - CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models [85.69959024572363]
CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。
テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。
本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
論文 参考訳(メタデータ) (2023-10-30T17:50:14Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。