論文の概要: Customizing Text-to-Image Diffusion with Camera Viewpoint Control
- arxiv url: http://arxiv.org/abs/2404.12333v1
- Date: Thu, 18 Apr 2024 16:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:02:22.843272
- Title: Customizing Text-to-Image Diffusion with Camera Viewpoint Control
- Title(参考訳): カメラ視点制御によるテキスト・画像拡散のカスタマイズ
- Authors: Nupur Kumari, Grace Su, Richard Zhang, Taesung Park, Eli Shechtman, Jun-Yan Zhu,
- Abstract要約: モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、テキストプロンプトによって、さまざまな背景シーンのオブジェクトプロパティを変更することができます。
本稿では,新しいオブジェクトのレンダリング・ビュー依存的な特徴に対して,2次元拡散過程を条件付けることを提案する。
- 参考スコア(独自算出の注目度): 53.621518249820745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model customization introduces new concepts to existing text-to-image models, enabling the generation of the new concept in novel contexts. However, such methods lack accurate camera view control w.r.t the object, and users must resort to prompt engineering (e.g., adding "top-view") to achieve coarse view control. In this work, we introduce a new task -- enabling explicit control of camera viewpoint for model customization. This allows us to modify object properties amongst various background scenes via text prompts, all while incorporating the target camera pose as additional control. This new task presents significant challenges in merging a 3D representation from the multi-view images of the new concept with a general, 2D text-to-image model. To bridge this gap, we propose to condition the 2D diffusion process on rendered, view-dependent features of the new object. During training, we jointly adapt the 2D diffusion modules and 3D feature predictions to reconstruct the object's appearance and geometry while reducing overfitting to the input multi-view images. Our method outperforms existing image editing and model personalization baselines in preserving the custom object's identity while following the input text prompt and the object's camera pose.
- Abstract(参考訳): モデルカスタマイズは、既存のテキスト・ツー・イメージモデルに新しい概念を導入し、新しいコンテキストにおける新しい概念の生成を可能にする。
しかし、このような手法はオブジェクトに対して正確なカメラビュー制御を欠いているため、ユーザーは粗いビュー制御を実現するために、エンジニアリング(例えば"トップビュー"の追加など)を促さなければならない。
本研究では,モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを提案する。
これにより、ターゲットカメラのポーズを追加コントロールとして組み込んだまま、テキストプロンプトを通じて、さまざまな背景シーンのオブジェクトプロパティを変更できます。
この新しい課題は、新しい概念のマルチビューイメージから一般的な2次元テキスト・ツー・イメージ・モデルに3D表現をマージする際の大きな課題である。
このギャップを埋めるために、新しいオブジェクトのレンダリングされたビュー依存的な特徴に2次元拡散プロセスを適用することを提案する。
トレーニング中,2次元拡散モジュールと3次元特徴予測を併用してオブジェクトの外観や形状を再構築し,入力されたマルチビュー画像への過度な適合を低減した。
提案手法は,入力されたテキストプロンプトとオブジェクトのカメラポーズに従って,カスタムオブジェクトのアイデンティティを保存する際に,既存の画像編集およびモデルパーソナライズベースラインよりも優れる。
関連論文リスト
- Instructive3D: Editing Large Reconstruction Models with Text Instructions [2.9575146209034853]
Instructive3Dは、3Dオブジェクトの生成と微細な編集を1つのモデルに統合する新しいLEMベースのモデルである。
Instructive3Dは編集プロンプトによって指定された特性を持つ優れた3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2025-01-08T09:28:25Z) - Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models [78.90023746996302]
Add-itは、拡散モデルの注意メカニズムを拡張して、3つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである。
我々の重み付き拡張アテンション機構は、自然物の位置を確実にしながら、構造的一貫性と細部を維持できる。
人間の評価によると、Add-itは80%以上のケースで好まれる。
論文 参考訳(メタデータ) (2024-11-11T18:50:09Z) - Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models [32.51506331929564]
本研究では,物体ごとの表現,ニューラルアセットを用いてシーン内の個々の物体の3次元ポーズを制御することを提案する。
本モデルでは,合成3次元シーンデータセットと実世界の2つのビデオデータセットを用いて,最先端のマルチオブジェクト編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-13T16:29:18Z) - CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models [85.69959024572363]
CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。
テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。
本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
論文 参考訳(メタデータ) (2023-10-30T17:50:14Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - AutoRF: Learning 3D Object Radiance Fields from Single View Observations [17.289819674602295]
AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:13:39Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。