論文の概要: 3D-aware Image Generation and Editing with Multi-modal Conditions
- arxiv url: http://arxiv.org/abs/2403.06470v1
- Date: Mon, 11 Mar 2024 07:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:00:38.053910
- Title: 3D-aware Image Generation and Editing with Multi-modal Conditions
- Title(参考訳): マルチモーダル条件による3次元画像生成と編集
- Authors: Bo Li, Yi-ke Li, Zhi-fen He, Bin Liu, and Yun-Kun Lai
- Abstract要約: 1つの2Dセマンティックラベルから3D一貫性のある画像を生成することは、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ困難な研究トピックである。
複数種類の条件入力を組み込んだ新しい3D画像生成・編集モデルを提案する。
提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
- 参考スコア(独自算出の注目度): 6.444512435220748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D-consistent image generation from a single 2D semantic label is an
important and challenging research topic in computer graphics and computer
vision. Although some related works have made great progress in this field,
most of the existing methods suffer from poor disentanglement performance of
shape and appearance, and lack multi-modal control. In this paper, we propose a
novel end-to-end 3D-aware image generation and editing model incorporating
multiple types of conditional inputs, including pure noise, text and reference
image. On the one hand, we dive into the latent space of 3D Generative
Adversarial Networks (GANs) and propose a novel disentanglement strategy to
separate appearance features from shape features during the generation process.
On the other hand, we propose a unified framework for flexible image generation
and editing tasks with multi-modal conditions. Our method can generate diverse
images with distinct noises, edit the attribute through a text description and
conduct style transfer by giving a reference RGB image. Extensive experiments
demonstrate that the proposed method outperforms alternative approaches both
qualitatively and quantitatively on image generation and editing.
- Abstract(参考訳): 単一の2d意味ラベルからの3d一貫性のある画像生成は、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ挑戦的な研究テーマである。
この分野ではいくつかの関連研究が大きな進歩を遂げているが、既存の手法のほとんどは形状と外観の歪曲性能が悪く、マルチモーダル制御が欠如している。
本稿では,純雑音,テキスト,参照画像を含む複数の条件入力を組み込んだ,エンドツーエンドの3D画像生成・編集モデルを提案する。
一方,3次元生成共役ネットワーク(GAN)の潜伏空間に潜り込み,生成過程における外観特徴と形状特徴とを分離する新たなアンタングル化戦略を提案する。
一方,マルチモーダルな条件下で柔軟な画像生成と編集を行うための統一フレームワークを提案する。
提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
大規模な実験により,提案手法は画像生成と編集において定性的かつ定量的に代替手法より優れていることが示された。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Multi-view Image Prompted Multi-view Diffusion for Improved 3D Generation [48.595946437886774]
我々は、入力プロンプトとしてマルチビュー画像をサポートするために、新しい画像プロンプト多視点拡散モデルであるImageDreamを構築した。
我々の手法はMultiImageDreamと呼ばれ、シングルイメージプロンプトからマルチイメージプロンプトへの移行により、マルチビューおよび3Dオブジェクト生成の性能が向上することを明らかにする。
論文 参考訳(メタデータ) (2024-04-26T13:55:39Z) - MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text [52.296914125558864]
ユーザ特定条件からの3Dシーンの生成は、3Dアプリケーションの生産負担を軽減するための有望な道を提供する。
以前の研究では、限られた制御条件のため、望まれるシーンを実現するためにかなりの努力が必要だった。
部分画像,トップビューに表現されたレイアウト情報,テキストプロンプトを用いて,マルチモーダル条件下での3Dシーンの制御と生成を行う手法を提案する。
論文 参考訳(メタデータ) (2024-03-30T12:50:25Z) - Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation [12.693847842218604]
5分以内に高忠実で一貫した3Dコンテンツをパーソナライズできる新しい3Dカスタマイズ手法「Make-Your-3D」を導入する。
我々の重要な洞察は、多視点拡散モデルとアイデンティティ特異的な2次元生成モデルの分布を調和させ、所望の3次元対象の分布と整合させることである。
提案手法は,高画質で一貫した,かつ主観的な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2024-03-14T17:57:04Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。