Fugu-MT 論文翻訳(概要): Reference-Based 3D-Aware Image Editing with Triplane

論文の概要: Reference-Based 3D-Aware Image Editing with Triplane

arxiv url: http://arxiv.org/abs/2404.03632v1
Date: Thu, 4 Apr 2024 17:53:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 13:42:53.610657
Title: Reference-Based 3D-Aware Image Editing with Triplane
Title（参考訳）: Triplaneによる参照型3次元画像編集
Authors: Bahri Batuhan Bilecen, Yigit Yalin, Ning Yu, Aysegul Dundar,
Abstract要約: 本研究は、EG3Dの3次元平面空間の高度な参照ベース編集における有効性について検討し、実証する。提案手法は,三面体特徴の符号化,空間的ゆがみ,三面体領域の特徴の自動局在化,および所望の画像編集のための融合学習を統合する。本手法は,定性的にも定量的にも,関連する3D対応潜時編集や2D参照ベース編集よりも大幅に改善されている。
参考スコア（独自算出の注目度）: 15.222454412573455
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Generative Adversarial Networks (GANs) have emerged as powerful tools not only for high-quality image generation but also for real image editing through manipulation of their interpretable latent spaces. Recent advancements in GANs include the development of 3D-aware models such as EG3D, characterized by efficient triplane-based architectures enabling the reconstruction of 3D geometry from single images. However, scant attention has been devoted to providing an integrated framework for high-quality reference-based 3D-aware image editing within this domain. This study addresses this gap by exploring and demonstrating the effectiveness of EG3D's triplane space for achieving advanced reference-based edits, presenting a unique perspective on 3D-aware image editing through our novel pipeline. Our approach integrates the encoding of triplane features, spatial disentanglement and automatic localization of features in the triplane domain, and fusion learning for desired image editing. Moreover, our framework demonstrates versatility across domains, extending its effectiveness to animal face edits and partial stylization of cartoon portraits. The method shows significant improvements over relevant 3D-aware latent editing and 2D reference-based editing methods, both qualitatively and quantitatively. Project page: https://three-bee.github.io/triplane_edit
Abstract（参考訳）: GAN(Generative Adversarial Networks)は、高品質な画像生成だけでなく、解釈可能な潜在空間の操作による実際の画像編集のための強力なツールとして登場した。 GANの最近の進歩には、EG3Dのような3次元認識モデルの開発が含まれており、単一の画像から3次元幾何学を再構築できる効率的な三面体ベースのアーキテクチャが特徴である。しかし、この領域内では、高品質な参照ベースの3D画像編集のための統合フレームワークを提供することに注意が向けられている。本研究は,EG3Dの3次元平面空間による高度な参照ベース編集の実現効果を探索・実証することにより,このギャップを解消し,新しいパイプラインによる3次元画像編集におけるユニークな視点を示す。提案手法は,三面体特徴の符号化,空間的ゆがみ,三面体領域の特徴の自動局在化,および所望の画像編集のための融合学習を統合する。さらに,本フレームワークはドメイン間の汎用性を実証し,その効果を動物顔の編集や漫画肖像画の部分的スタイリゼーションにまで拡張する。本手法は,定性的にも定量的にも,関連する3D対応潜時編集や2D参照ベース編集よりも大幅に改善されている。プロジェクトページ:https://three-bee.github.io/triplane_edit

関連論文リスト

Manipulating Vehicle 3D Shapes through Latent Space Editing [0.0]
本稿では,車載3Dモデルに対する連続的,高精度,属性特異的な修正を可能にする,事前学習型回帰器を用いたフレームワークを提案する。提案手法は,車両3Dオブジェクトの固有性を保持するだけでなく,多属性編集もサポートしており,モデルの構造的整合性を損なうことなく,広範囲のカスタマイズが可能となる。
論文参考訳（メタデータ） (2024-10-31T13:41:16Z)
Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文参考訳（メタデータ） (2024-10-07T12:04:39Z)
DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文参考訳（メタデータ） (2024-05-09T14:34:05Z)
View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文参考訳（メタデータ） (2024-03-18T15:22:09Z)
Image Sculpting: Precise Object Editing with 3D Geometry Control [33.9777412846583]
Image Sculptingは、3D幾何学とグラフィックスのツールを組み込むことで、2D画像を編集する新しいフレームワークである。これは、ポーズ編集、回転、翻訳、3D合成、彫刻、シリアル追加といった、正確で定量化され、物理的に証明可能な編集オプションをサポートする。
論文参考訳（メタデータ） (2024-01-02T18:59:35Z)
SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance Fields [92.14328581392633]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文参考訳（メタデータ） (2023-12-26T02:50:42Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文参考訳（メタデータ） (2023-03-23T13:58:11Z)
CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文参考訳（メタデータ） (2023-03-21T17:59:02Z)
3DAvatarGAN: Bridging Domains for Personalized Editable Avatars [75.31960120109106]
3D-GANは、一貫した構造を持つ大規模データセットのトレーニングにより、幾何学とテクスチャを合成する。本稿では,ソースドメインが事前訓練された3D-GANであり,ターゲットドメインが2D-GANである適応フレームワークを提案する。本稿では,芸術領域の誇張された幾何学をモデル化するための変形に基づく手法について述べる。
論文参考訳（メタデータ） (2023-01-06T19:58:47Z)
3D-FM GAN: Towards 3D-Controllable Face Manipulation [43.99393180444706]
3D-FM GANは、3D制御可能な顔操作に特化した新しい条件付きGANフレームワークである。入力された顔画像と3D編集の物理的レンダリングの両方をStyleGANの潜在空間に注意深く符号化することにより、画像生成装置は高品質でアイデンティティを保存し、3D制御可能な顔操作を提供する。提案手法は, 編集性の向上, アイデンティティの保存性の向上, 写真リアリズムの向上など, 様々なタスクにおいて, 先行技術よりも優れていることを示す。
論文参考訳（メタデータ） (2022-08-24T01:33:13Z)
IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware Portrait Synthesis [38.517819699560945]
システムを構成する3つの主要なコンポーネントは,(1)図形に一貫性のある,不整合な顔画像とセマンティックマスクを生成する3次元セマンティック認識生成モデル,(2)意味的およびテクスチャエンコーダから潜伏符号を初期化し,さらに忠実な再構築のために最適化するハイブリッドGANインバージョンアプローチ,(3)カノニカルビューにおけるセマンティックマスクの効率的な操作を可能にするカノニカルエディタ,の3つである。
論文参考訳（メタデータ） (2022-05-31T03:35:44Z)
Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-12-15T08:01:43Z)
Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。 VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文参考訳（メタデータ） (2020-07-14T14:45:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。