論文の概要: Reference-Based 3D-Aware Image Editing with Triplanes
- arxiv url: http://arxiv.org/abs/2404.03632v2
- Date: Thu, 25 Jul 2024 15:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:07:19.702413
- Title: Reference-Based 3D-Aware Image Editing with Triplanes
- Title(参考訳): トリプレーンを用いた参照型3次元画像編集
- Authors: Bahri Batuhan Bilecen, Yigit Yalin, Ning Yu, Aysegul Dundar,
- Abstract要約: GAN(Generative Adversarial Networks)は、高品質な画像生成と、潜伏空間を操作することで実際の画像編集のための強力なツールとして登場した。
GANの最近の進歩には、EG3Dのような3次元認識モデルが含まれており、単一の画像から3次元幾何学を再構築できる効率的な三面体ベースのアーキテクチャを備えている。
本研究では,先進的な参照ベース編集における三面体空間の有効性を探索し,実証することにより,このギャップを解消する。
- 参考スコア(独自算出の注目度): 15.222454412573455
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative Adversarial Networks (GANs) have emerged as powerful tools for high-quality image generation and real image editing by manipulating their latent spaces. Recent advancements in GANs include 3D-aware models such as EG3D, which feature efficient triplane-based architectures capable of reconstructing 3D geometry from single images. However, limited attention has been given to providing an integrated framework for 3D-aware, high-quality, reference-based image editing. This study addresses this gap by exploring and demonstrating the effectiveness of the triplane space for advanced reference-based edits. Our novel approach integrates encoding, automatic localization, spatial disentanglement of triplane features, and fusion learning to achieve the desired edits. Additionally, our framework demonstrates versatility and robustness across various domains, extending its effectiveness to animal face edits, partially stylized edits like cartoon faces, full-body clothing edits, and 360-degree head edits. Our method shows state-of-the-art performance over relevant latent direction, text, and image-guided 2D and 3D-aware diffusion and GAN methods, both qualitatively and quantitatively.
- Abstract(参考訳): GAN(Generative Adversarial Networks)は、高品質な画像生成と、潜伏空間を操作することで実際の画像編集のための強力なツールとして登場した。
GANの最近の進歩には、EG3Dのような3次元認識モデルが含まれており、単一の画像から3次元幾何学を再構築できる効率的な三面体ベースのアーキテクチャを備えている。
しかし、3D対応、高品質、参照ベースの画像編集のための統合されたフレームワークを提供することには、限られた注意が払われている。
本研究では,先進的な参照ベース編集における三面体空間の有効性を探索し,実証することにより,このギャップを解消する。
提案手法は, 符号化, 自動位置決め, 三面体特徴の空間的ゆがみ, 融合学習を統合して, 所望の編集を実現する。
さらに,本フレームワークは,多種多様な領域にまたがる汎用性と堅牢性を示し,その効果を動物の顔の編集,マンガの顔や全身の衣服の編集,360度頭部の編集など部分的にスタイリングした編集にまで拡張する。
本手法は,画像誘導2Dおよび3D認識拡散法およびGAN法について,定性的かつ定量的に,関連性のある遅延方向,テキスト,および画像誘導2Dおよび3D認識拡散およびGAN法に対する最先端性能を示す。
関連論文リスト
- Manipulating Vehicle 3D Shapes through Latent Space Editing [0.0]
本稿では,車載3Dモデルに対する連続的,高精度,属性特異的な修正を可能にする,事前学習型回帰器を用いたフレームワークを提案する。
提案手法は,車両3Dオブジェクトの固有性を保持するだけでなく,多属性編集もサポートしており,モデルの構造的整合性を損なうことなく,広範囲のカスタマイズが可能となる。
論文 参考訳(メタデータ) (2024-10-31T13:41:16Z) - Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Image Sculpting: Precise Object Editing with 3D Geometry Control [33.9777412846583]
Image Sculptingは、3D幾何学とグラフィックスのツールを組み込むことで、2D画像を編集する新しいフレームワークである。
これは、ポーズ編集、回転、翻訳、3D合成、彫刻、シリアル追加といった、正確で定量化され、物理的に証明可能な編集オプションをサポートする。
論文 参考訳(メタデータ) (2024-01-02T18:59:35Z) - SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance Fields [92.14328581392633]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。
提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。
この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - 3DAvatarGAN: Bridging Domains for Personalized Editable Avatars [75.31960120109106]
3D-GANは、一貫した構造を持つ大規模データセットのトレーニングにより、幾何学とテクスチャを合成する。
本稿では,ソースドメインが事前訓練された3D-GANであり,ターゲットドメインが2D-GANである適応フレームワークを提案する。
本稿では,芸術領域の誇張された幾何学をモデル化するための変形に基づく手法について述べる。
論文 参考訳(メタデータ) (2023-01-06T19:58:47Z) - 3D-FM GAN: Towards 3D-Controllable Face Manipulation [43.99393180444706]
3D-FM GANは、3D制御可能な顔操作に特化した新しい条件付きGANフレームワークである。
入力された顔画像と3D編集の物理的レンダリングの両方をStyleGANの潜在空間に注意深く符号化することにより、画像生成装置は高品質でアイデンティティを保存し、3D制御可能な顔操作を提供する。
提案手法は, 編集性の向上, アイデンティティの保存性の向上, 写真リアリズムの向上など, 様々なタスクにおいて, 先行技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-24T01:33:13Z) - IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware
Portrait Synthesis [38.517819699560945]
システムを構成する3つの主要なコンポーネントは,(1)図形に一貫性のある,不整合な顔画像とセマンティックマスクを生成する3次元セマンティック認識生成モデル,(2)意味的およびテクスチャエンコーダから潜伏符号を初期化し,さらに忠実な再構築のために最適化するハイブリッドGANインバージョンアプローチ,(3)カノニカルビューにおけるセマンティックマスクの効率的な操作を可能にするカノニカルエディタ,の3つである。
論文 参考訳(メタデータ) (2022-05-31T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。