論文の概要: In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition
- arxiv url: http://arxiv.org/abs/2302.04871v2
- Date: Tue, 4 Apr 2023 20:04:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 15:28:37.429586
- Title: In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition
- Title(参考訳): In-N-Out: ボリューム分解による顔ビデオのインバージョンと編集
- Authors: Yiran Xu, Zhixin Shu, Cameron Smith, Jia-Bin Huang, Seoung Wug Oh
- Abstract要約: 3D対応のGANは、ビュー合成のようなクリエイティブなコンテンツ編集のための新しい機能を提供すると同時に、2D対応の編集機能を保持する。
これらの手法は、GANインバージョンを使用して、遅延コードの最適化によって画像やビデオを再構成し、コードを操作することでセマンティックな編集を可能にする。
我々は、顔ビデオのOODオブジェクトを明示的にモデル化することでこの問題に対処する。
我々の中核となる考え方は、2つのニューラル放射場(内分布)と外分布オブジェクト(外分布)を用いて顔を表現することであり、それらを再構成するために組み立てることである。
- 参考スコア(独自算出の注目度): 49.86840328246117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D-aware GANs offer new capabilities for creative content editing, such as
view synthesis, while preserving the editing capability of their 2D
counterparts. These methods use GAN inversion to reconstruct images or videos
by optimizing a latent code, allowing for semantic editing by manipulating the
code. However, a model pre-trained on a face dataset (e.g., FFHQ) often has
difficulty handling faces with out-of-distribution (OOD) objects, e.g., heavy
make-up or occlusions. We address this issue by explicitly modeling OOD objects
in face videos. Our core idea is to represent the face in a video using two
neural radiance fields, one for the in-distribution and the other for the
out-of-distribution object, and compose them together for reconstruction. Such
explicit decomposition alleviates the inherent trade-off between reconstruction
fidelity and editability. We evaluate our method's reconstruction accuracy and
editability on challenging real videos and showcase favorable results against
other baselines.
- Abstract(参考訳): 3d対応ganは、ビュー合成などの創造的なコンテンツ編集機能を提供し、また2d対応の編集能力も維持する。
これらの手法は、GANインバージョンを使用して遅延コードの最適化によって画像やビデオを再構成し、コードを操作することでセマンティックな編集を可能にする。
しかしながら、顔データセット(例えばffhq)で事前トレーニングされたモデルは、例えばヘビーメイクやオクルージョンなど、分散(ood)オブジェクトで顔を扱うのに苦労することが多い。
顔ビデオのOODオブジェクトを明示的にモデル化することでこの問題に対処する。
中心となるアイデアは,2つのニューラル・ラミアンス・フィールド(in-distribution)とout-of-distributionオブジェクト(out-distribution object)を使って顔を表現すること。
このような明示的な分解は、レコンストラクション忠実性と編集可能性の間の固有のトレードオフを緩和する。
提案手法の再現精度と編集性を評価し,他のベースラインに対して良好な結果を示す。
関連論文リスト
- Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。
提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文 参考訳(メタデータ) (2024-03-18T06:18:59Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。
歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。
私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Vox-E: Text-guided Voxel Editing of 3D Objects [14.88446525549421]
大規模テキスト誘導拡散モデルが注目されているのは、多様な画像を合成できるためである。
本稿では,既存の3次元オブジェクトの編集に潜時拡散モデルのパワーを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:36:36Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - 3D GAN Inversion with Pose Optimization [26.140281977885376]
本稿では,カメラ視点と潜時符号を同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。
画像の再構成と編集を定量的かつ質的に行い、さらに2D GANベースの編集と比較した。
論文 参考訳(メタデータ) (2022-10-13T19:06:58Z) - GAN2X: Non-Lambertian Inverse Rendering of Image GANs [85.76426471872855]
GAN2Xは、教師なし画像のみをトレーニングに使用する、教師なし逆レンダリングの新しい手法である。
3次元形状を主眼とする従来のShape-from-GANアプローチとは異なり、GANが生成した擬似ペアデータを利用して、非ランベルト材料特性を復元する試みは初めてである。
実験により, GAN2Xは2次元画像を3次元形状, アルベド, 特異な特性に正確に分解し, 教師なしの単視3次元顔再構成の最先端性能を実現することができた。
論文 参考訳(メタデータ) (2022-06-18T16:58:49Z) - IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware
Portrait Synthesis [38.517819699560945]
システムを構成する3つの主要なコンポーネントは,(1)図形に一貫性のある,不整合な顔画像とセマンティックマスクを生成する3次元セマンティック認識生成モデル,(2)意味的およびテクスチャエンコーダから潜伏符号を初期化し,さらに忠実な再構築のために最適化するハイブリッドGANインバージョンアプローチ,(3)カノニカルビューにおけるセマンティックマスクの効率的な操作を可能にするカノニカルエディタ,の3つである。
論文 参考訳(メタデータ) (2022-05-31T03:35:44Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。