論文の概要: 3D-aware Image Generation and Editing with Multi-modal Conditions
- arxiv url: http://arxiv.org/abs/2403.06470v1
- Date: Mon, 11 Mar 2024 07:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:00:38.053910
- Title: 3D-aware Image Generation and Editing with Multi-modal Conditions
- Title(参考訳): マルチモーダル条件による3次元画像生成と編集
- Authors: Bo Li, Yi-ke Li, Zhi-fen He, Bin Liu, and Yun-Kun Lai
- Abstract要約: 1つの2Dセマンティックラベルから3D一貫性のある画像を生成することは、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ困難な研究トピックである。
複数種類の条件入力を組み込んだ新しい3D画像生成・編集モデルを提案する。
提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
- 参考スコア(独自算出の注目度): 6.444512435220748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D-consistent image generation from a single 2D semantic label is an
important and challenging research topic in computer graphics and computer
vision. Although some related works have made great progress in this field,
most of the existing methods suffer from poor disentanglement performance of
shape and appearance, and lack multi-modal control. In this paper, we propose a
novel end-to-end 3D-aware image generation and editing model incorporating
multiple types of conditional inputs, including pure noise, text and reference
image. On the one hand, we dive into the latent space of 3D Generative
Adversarial Networks (GANs) and propose a novel disentanglement strategy to
separate appearance features from shape features during the generation process.
On the other hand, we propose a unified framework for flexible image generation
and editing tasks with multi-modal conditions. Our method can generate diverse
images with distinct noises, edit the attribute through a text description and
conduct style transfer by giving a reference RGB image. Extensive experiments
demonstrate that the proposed method outperforms alternative approaches both
qualitatively and quantitatively on image generation and editing.
- Abstract(参考訳): 単一の2d意味ラベルからの3d一貫性のある画像生成は、コンピュータグラフィックスとコンピュータビジョンにおいて重要かつ挑戦的な研究テーマである。
この分野ではいくつかの関連研究が大きな進歩を遂げているが、既存の手法のほとんどは形状と外観の歪曲性能が悪く、マルチモーダル制御が欠如している。
本稿では,純雑音,テキスト,参照画像を含む複数の条件入力を組み込んだ,エンドツーエンドの3D画像生成・編集モデルを提案する。
一方,3次元生成共役ネットワーク(GAN)の潜伏空間に潜り込み,生成過程における外観特徴と形状特徴とを分離する新たなアンタングル化戦略を提案する。
一方,マルチモーダルな条件下で柔軟な画像生成と編集を行うための統一フレームワークを提案する。
提案手法は,異なるノイズを持つ多様な画像を生成し,テキスト記述を通じて属性を編集し,参照RGB画像を与えることでスタイル転送を行う。
大規模な実験により,提案手法は画像生成と編集において定性的かつ定量的に代替手法より優れていることが示された。
関連論文リスト
- Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation [12.693847842218604]
5分以内に高忠実で一貫した3Dコンテンツをパーソナライズできる新しい3Dカスタマイズ手法「Make-Your-3D」を導入する。
我々の重要な洞察は、多視点拡散モデルとアイデンティティ特異的な2次元生成モデルの分布を調和させ、所望の3次元対象の分布と整合させることである。
提案手法は,高画質で一貫した,かつ主観的な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2024-03-14T17:57:04Z) - CharacterGen: Efficient 3D Character Generation from Single Images with
Multi-View Pose Canonicalization [29.560567184872085]
本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。
変換器ベースで一般化可能なスパースビュー再構成モデルが,我々のアプローチの他のコアコンポーネントである。
複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして,モデルをトレーニングし,評価した。
論文 参考訳(メタデータ) (2024-02-27T05:10:59Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z) - SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。
提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。
私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文 参考訳(メタデータ) (2022-12-08T18:59:05Z) - DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image
Diffusion for 3D Generative Model [18.362036050304987]
3次元生成モデルは、高解像度のフォトリアリスティック画像をビュー一貫性と詳細な3次元形状で合成する際、顕著な性能を達成した。
テキスト誘導型ドメイン適応法は、あるドメイン上の2次元生成モデルを異なるスタイルの他のドメイン上のモデルに変換する際、顕著な性能を示した。
本稿では,テキスト・ツー・イメージ拡散モデルを用いた3次元生成モデルに適したドメイン適応手法であるDATID-3Dを提案する。
論文 参考訳(メタデータ) (2022-11-29T16:54:34Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。