論文の概要: InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image
- arxiv url: http://arxiv.org/abs/2311.02826v1
- Date: Mon, 6 Nov 2023 02:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:37:14.862329
- Title: InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image
- Title(参考訳): InstructPix2NeRF:単一画像からの3D画像編集
- Authors: Jianhui Li, Shilong Liu, Zidong Liu, Yikai Wang, Kaiwen Zheng, Jinghui
Xu, Jianmin Li, Jun Zhu
- Abstract要約: InstructPix2NeRFは、人間の指示で1つのオープンワールドイメージから3D対応のポートレート編集を可能にする。
中心となるのは条件付き3D拡散プロセスで、2D編集を3D空間に引き上げ、ペア画像の差分と3重データによる指示との相関を学習する。
- 参考スコア(独自算出の注目度): 25.076270175205593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of Neural Radiance Field (NeRF) in 3D-aware portrait
editing, a variety of works have achieved promising results regarding both
quality and 3D consistency. However, these methods heavily rely on per-prompt
optimization when handling natural language as editing instructions. Due to the
lack of labeled human face 3D datasets and effective architectures, the area of
human-instructed 3D-aware editing for open-world portraits in an end-to-end
manner remains under-explored. To solve this problem, we propose an end-to-end
diffusion-based framework termed InstructPix2NeRF, which enables instructed
3D-aware portrait editing from a single open-world image with human
instructions. At its core lies a conditional latent 3D diffusion process that
lifts 2D editing to 3D space by learning the correlation between the paired
images' difference and the instructions via triplet data. With the help of our
proposed token position randomization strategy, we could even achieve
multi-semantic editing through one single pass with the portrait identity
well-preserved. Besides, we further propose an identity consistency module that
directly modulates the extracted identity signals into our diffusion process,
which increases the multi-view 3D identity consistency. Extensive experiments
verify the effectiveness of our method and show its superiority against strong
baselines quantitatively and qualitatively.
- Abstract(参考訳): 3D画像編集におけるNeural Radiance Field(NeRF)の成功により、品質と3D一貫性の両面で有望な成果が得られた。
しかし、これらの手法は自然言語を編集命令として扱う際に、プロンプトごとの最適化に大きく依存している。
ラベル付き人間の顔3dデータセットと効果的なアーキテクチャの欠如により、エンド・ツー・エンドのポートレートの3d対応編集領域は未開拓のままである。
そこで本研究では,人間の指示で1つのオープンワールドイメージから3次元画像編集を指示できるInstructPix2NeRFという,エンドツーエンドの拡散に基づくフレームワークを提案する。
中心となるのは条件付き3D拡散プロセスで、2D編集を3D空間に引き上げ、ペア画像の差分と3重データによる指示との相関を学習する。
提案するトークン位置ランダム化戦略の助けを借りて、ポートレートのアイデンティティを十分に保存した1回のパスでマルチセマンティクス編集を実現することさえ可能であった。
さらに,抽出された識別信号を拡散プロセスに直接変調し,マルチビューの3次元識別一貫性を増大させるid一貫性モジュールを提案する。
本手法の有効性を検証し, 強塩基性に対して定量的に, 定性的に優位性を示す。
関連論文リスト
- Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - Diffusion Models are Geometry Critics: Single Image 3D Editing Using Pre-Trained Diffusion Priors [24.478875248825563]
単一画像の3次元操作を可能にする新しい画像編集手法を提案する。
本手法は,テキスト・イメージ・ペアの広い範囲で訓練された強力な画像拡散モデルを直接活用する。
提案手法では,高画質な3D画像編集が可能で,視点変換が大きく,外観や形状の整合性も高い。
論文 参考訳(メタデータ) (2024-03-18T06:18:59Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。
歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。
私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - PREIM3D: 3D Consistent Precise Image Attribute Editing from a Single
Image [23.06474962139909]
本稿では,3次元画像属性編集問題について検討する。
最近の方法では、共有エンコーダを訓練して3Dジェネレータの潜伏空間に画像をマッピングすることで、この問題を解決している。
本稿では,3次元の整合性を維持するための2つの新しい手法,交互トレーニングスキームと多視点アイデンティティ損失を提案する。
論文 参考訳(メタデータ) (2023-04-20T12:33:56Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z) - SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with Neural
Radiance Fields [26.296017756560467]
3Dでは、解は複数のビューで一貫し、幾何学的に有効でなければならない。
本稿では,これらの課題に対処する新しい3Dインペイント手法を提案する。
我々はまず,NeRF法と2次元セグメンテーション法と比較して,マルチビューセグメンテーションにおけるアプローチの優位性を実証する。
論文 参考訳(メタデータ) (2022-11-22T13:14:50Z) - Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。
提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文 参考訳(メタデータ) (2022-09-12T17:40:08Z) - 3D-FM GAN: Towards 3D-Controllable Face Manipulation [43.99393180444706]
3D-FM GANは、3D制御可能な顔操作に特化した新しい条件付きGANフレームワークである。
入力された顔画像と3D編集の物理的レンダリングの両方をStyleGANの潜在空間に注意深く符号化することにより、画像生成装置は高品質でアイデンティティを保存し、3D制御可能な顔操作を提供する。
提案手法は, 編集性の向上, アイデンティティの保存性の向上, 写真リアリズムの向上など, 様々なタスクにおいて, 先行技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-24T01:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。