論文の概要: Real-time 3D-aware Portrait Editing from a Single Image
- arxiv url: http://arxiv.org/abs/2402.14000v2
- Date: Tue, 2 Apr 2024 10:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 08:39:34.209219
- Title: Real-time 3D-aware Portrait Editing from a Single Image
- Title(参考訳): 単一画像からのリアルタイム3次元画像編集
- Authors: Qingyan Bai, Zifan Shi, Yinghao Xu, Hao Ouyang, Qiuyu Wang, Ceyuan Yang, Xuan Wang, Gordon Wetzstein, Yujun Shen, Qifeng Chen,
- Abstract要約: 3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
コード、モデル、インターフェースは、将来の研究を促進するために公開されます。
- 参考スコア(独自算出の注目度): 111.27169315556444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents 3DPE, a practical method that can efficiently edit a face image following given prompts, like reference images or text descriptions, in a 3D-aware manner. To this end, a lightweight module is distilled from a 3D portrait generator and a text-to-image model, which provide prior knowledge of face geometry and superior editing capability, respectively. Such a design brings two compelling advantages over existing approaches. First, our system achieves real-time editing with a feedforward network (i.e., ~0.04s per image), over 100x faster than the second competitor. Second, thanks to the powerful priors, our module could focus on the learning of editing-related variations, such that it manages to handle various types of editing simultaneously in the training phase and further supports fast adaptation to user-specified customized types of editing during inference (e.g., with ~5min fine-tuning per style). The code, the model, and the interface will be made publicly available to facilitate future research.
- Abstract(参考訳): 本研究は,参照画像やテキスト記述など,与えられたプロンプトに従って顔画像を効率よく3D対応で編集する3DPEを提案する。
この目的のために、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから軽量モジュールを蒸留し、顔形状の事前知識と優れた編集能力を提供する。
このような設計は、既存のアプローチに対して2つの強力なアドバンテージをもたらします。
まず,フィードフォワードネットワーク(画像あたり0.04秒)によるリアルタイム編集を,第2の競合に比べて100倍以上高速に行う。
第二に、強力な先行技術のおかげで、我々のモジュールは、トレーニング段階で様々な種類の編集を同時に処理し、推論中にユーザー指定のカスタマイズされた編集タイプ(例えば、スタイルごとに5分程度の微調整)に迅速に適応できるように、編集関連のバリエーションの学習に焦点を合わせることができました。
コード、モデル、インターフェースは、将来の研究を促進するために公開されます。
関連論文リスト
- DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題を解決するための確立されたパラダイムは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
これは、神経放射場のような計算コストのかかる3D表現を更新する必要があるため、しばしば遅くなる。
そこで我々は,これらの問題に2つの方法で対処する手法であるDirect Gaussian Editor (DGE)を導入する。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing [38.948892064761914]
GaussCtrlは、3D Gaussian Splatting(3DGS)によって再構成された3Dシーンを編集するテキスト駆動方式である。
私たちの重要な貢献は、複数ビューの一貫性のある編集であり、1つの画像を反復的に編集する代わりに、すべての画像を一緒に編集できる。
論文 参考訳(メタデータ) (2024-03-13T17:35:28Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [9.619713456771603]
テキスト・ツー・イメージ(T2I)拡散モデルは,多目的で使いやすく,近年普及している。
本研究では,テスト期間中にモデルを再学習することなく3Dシーンを編集できる新しい3Dシーン編集技術,Free-Editorを提案する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。