論文の概要: Real-time 3D-aware Portrait Editing from a Single Image
- arxiv url: http://arxiv.org/abs/2402.14000v1
- Date: Wed, 21 Feb 2024 18:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:04:17.485516
- Title: Real-time 3D-aware Portrait Editing from a Single Image
- Title(参考訳): 単一画像からのリアルタイム3次元画像編集
- Authors: Qingyan Bai, Yinghao Xu, Zifan Shi, Hao Ouyang, Qiuyu Wang, Ceyuan
Yang, Xuan Wang, Gordon Wetzstein, Yujun Shen, Qifeng Chen
- Abstract要約: 本研究は,与えられたプロンプトに従って顔画像を効率よく編集できる3DPEを提示する。
ライトウェイトモジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから抽出され、顔形状とオープン語彙編集能力の事前知識を提供する。
コード、モデル、インターフェースは、将来の研究を促進するために公開されます。
- 参考スコア(独自算出の注目度): 114.97405659269198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents 3DPE, a practical tool that can efficiently edit a face
image following given prompts, like reference images or text descriptions, in
the 3D-aware manner. To this end, a lightweight module is distilled from a 3D
portrait generator and a text-to-image model, which provide prior knowledge of
face geometry and open-vocabulary editing capability, respectively. Such a
design brings two compelling advantages over existing approaches. First, our
system achieves real-time editing with a feedforward network (i.e., ~0.04s per
image), over 100x faster than the second competitor. Second, thanks to the
powerful priors, our module could focus on the learning of editing-related
variations, such that it manages to handle various types of editing
simultaneously in the training phase and further supports fast adaptation to
user-specified novel types of editing during inference (e.g., with ~5min
fine-tuning per case). The code, the model, and the interface will be made
publicly available to facilitate future research.
- Abstract(参考訳): この3DPEは、参照画像やテキスト記述など、与えられたプロンプトに続く顔画像を、3D対応で効率的に編集できる実用的なツールである。
この目的のために、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから軽量モジュールを蒸留し、顔形状の事前知識とオープン語彙編集能力をそれぞれ提供する。
このような設計は、既存のアプローチよりも2つの説得力のある利点をもたらす。
まず,フィードフォワードネットワーク(画像あたり0.04秒)によるリアルタイム編集を,第2の競合に比べて100倍以上高速に行う。
第二に、強力な先行性のおかげで、我々のモジュールは、トレーニング段階で様々な種類の編集を同時に処理し、推論中にユーザー特定された新しいタイプの編集(例えば、ケースごとに5分程度の微調整)に迅速に適応できるように、編集関連のバリエーションの学習に集中できる。
コード、モデル、インターフェースは、将来の研究を促進するために公開される予定だ。
関連論文リスト
- AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。
モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。
本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。