論文の概要: PREIM3D: 3D Consistent Precise Image Attribute Editing from a Single
Image
- arxiv url: http://arxiv.org/abs/2304.10263v1
- Date: Thu, 20 Apr 2023 12:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:22:43.137439
- Title: PREIM3D: 3D Consistent Precise Image Attribute Editing from a Single
Image
- Title(参考訳): PreIM3D: 単一画像からの3次元連続精密画像属性編集
- Authors: Jianhui Li, Jianmin Li, Haoji Zhang, Shilong Liu, Zhengyi Wang, Zihao
Xiao, Kaiwen Zheng, Jun Zhu
- Abstract要約: 本稿では,3次元画像属性編集問題について検討する。
最近の方法では、共有エンコーダを訓練して3Dジェネレータの潜伏空間に画像をマッピングすることで、この問題を解決している。
本稿では,3次元の整合性を維持するための2つの新しい手法,交互トレーニングスキームと多視点アイデンティティ損失を提案する。
- 参考スコア(独自算出の注目度): 23.06474962139909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the 3D-aware image attribute editing problem in this paper, which
has wide applications in practice. Recent methods solved the problem by
training a shared encoder to map images into a 3D generator's latent space or
by per-image latent code optimization and then edited images in the latent
space. Despite their promising results near the input view, they still suffer
from the 3D inconsistency of produced images at large camera poses and
imprecise image attribute editing, like affecting unspecified attributes during
editing. For more efficient image inversion, we train a shared encoder for all
images. To alleviate 3D inconsistency at large camera poses, we propose two
novel methods, an alternating training scheme and a multi-view identity loss,
to maintain 3D consistency and subject identity. As for imprecise image
editing, we attribute the problem to the gap between the latent space of real
images and that of generated images. We compare the latent space and inversion
manifold of GAN models and demonstrate that editing in the inversion manifold
can achieve better results in both quantitative and qualitative evaluations.
Extensive experiments show that our method produces more 3D consistent images
and achieves more precise image editing than previous work. Source code and
pretrained models can be found on our project page:
https://mybabyyh.github.io/Preim3D/
- Abstract(参考訳): 本稿では,実際に広く応用されている3d対応画像属性編集問題について検討する。
最近の方法では、共有エンコーダをトレーニングして3dジェネレータの潜在空間に画像をマッピングしたり、画像毎の潜在コード最適化を行い、潜在空間で画像を編集することで問題を解決している。
入力ビュー付近での有望な結果にもかかわらず、大きなカメラポーズで生成された画像の3d不整合や、編集中の不特定属性に影響するような不正確な画像属性編集に苦しんでいる。
より効率的な画像反転のために、すべての画像に対して共有エンコーダを訓練する。
大規模なカメラポーズにおける3Dの不整合を軽減するために,2つの新しい手法,交互トレーニングスキームと多視点アイデンティティ損失を提案する。
不正確な画像編集については,実画像の潜在空間と生成画像とのギャップを問題としている。
GANモデルの潜在空間と反転多様体を比較し、逆多様体の編集が定量的および定性的な評価においてより良い結果が得られることを示した。
大規模な実験により,本手法は従来よりも3次元一貫した画像を生成し,より正確な画像編集を実現する。
ソースコードと事前訓練済みのモデルについては、プロジェクトのページを参照してください。
関連論文リスト
- DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing [38.948892064761914]
GaussCtrlは、3D Gaussian Splatting(3DGS)によって再構成された3Dシーンを編集するテキスト駆動方式である。
私たちの重要な貢献は、複数ビューの一貫性のある編集であり、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集できる。
論文 参考訳(メタデータ) (2024-03-13T17:35:28Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [90.57414218888536]
カラーフィールドは、標準画像(canonical image)とも呼ばれる、明示的な2次元の外観アグリゲーションとして学習する。
テクスチャクエリのために3Dポイントを2Dピクセルにマッピングする投影場を標準画像に補完する。
提案手法は,既存のNeRFベースの編集手法に比べて,編集1回あたり20倍高速であることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image [25.076270175205593]
InstructPix2NeRFは、人間の指示で単一のオープンワールドイメージから3D対応のポートレート編集を可能にする。
中心となるのは条件付き3D拡散プロセスで、2D編集を3D空間に引き上げ、ペア画像の差分と3重データによる指示との相関を学習する。
論文 参考訳(メタデータ) (2023-11-06T02:21:11Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - EpiGRAF: Rethinking training of 3D GANs [60.38818140637367]
本稿では,SotA画像品質の高い高解像度3Dジェネレータを,パッチワイズを単純に訓練するまったく異なる経路を辿ることによって実現可能であることを示す。
EpiGRAFと呼ばれる結果のモデルは、効率的で高解像度で純粋な3Dジェネレータである。
論文 参考訳(メタデータ) (2022-06-21T17:08:23Z) - Differentiable Rendering: A Survey [22.35293459579154]
微分レンダリングは、画像を通して3Dオブジェクトの勾配を計算し伝播させる新しい分野である。
本稿では、既存の文献をレビューし、差別化可能なレンダリングの現状と応用、オープンな研究課題について論じる。
論文 参考訳(メタデータ) (2020-06-22T08:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。