Fugu-MT 論文翻訳(概要): Real-time 3D-aware Portrait Editing from a Single Image

論文の概要: Real-time 3D-aware Portrait Editing from a Single Image

arxiv url: http://arxiv.org/abs/2402.14000v2
Date: Tue, 2 Apr 2024 10:06:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 08:39:34.209219
Title: Real-time 3D-aware Portrait Editing from a Single Image
Title（参考訳）: 単一画像からのリアルタイム3次元画像編集
Authors: Qingyan Bai, Zifan Shi, Yinghao Xu, Hao Ouyang, Qiuyu Wang, Ceyuan Yang, Xuan Wang, Gordon Wetzstein, Yujun Shen, Qifeng Chen,
Abstract要約: 3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。コード、モデル、インターフェースは、将来の研究を促進するために公開されます。
参考スコア（独自算出の注目度）: 111.27169315556444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work presents 3DPE, a practical method that can efficiently edit a face image following given prompts, like reference images or text descriptions, in a 3D-aware manner. To this end, a lightweight module is distilled from a 3D portrait generator and a text-to-image model, which provide prior knowledge of face geometry and superior editing capability, respectively. Such a design brings two compelling advantages over existing approaches. First, our system achieves real-time editing with a feedforward network (i.e., ~0.04s per image), over 100x faster than the second competitor. Second, thanks to the powerful priors, our module could focus on the learning of editing-related variations, such that it manages to handle various types of editing simultaneously in the training phase and further supports fast adaptation to user-specified customized types of editing during inference (e.g., with ~5min fine-tuning per style). The code, the model, and the interface will be made publicly available to facilitate future research.
Abstract（参考訳）: 本研究は,参照画像やテキスト記述など,与えられたプロンプトに従って顔画像を効率よく3D対応で編集する3DPEを提案する。この目的のために、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから軽量モジュールを蒸留し、顔形状の事前知識と優れた編集能力を提供する。このような設計は、既存のアプローチに対して2つの強力なアドバンテージをもたらします。まず,フィードフォワードネットワーク(画像あたり0.04秒)によるリアルタイム編集を,第2の競合に比べて100倍以上高速に行う。第二に、強力な先行技術のおかげで、我々のモジュールは、トレーニング段階で様々な種類の編集を同時に処理し、推論中にユーザー指定のカスタマイズされた編集タイプ(例えば、スタイルごとに5分程度の微調整)に迅速に適応できるように、編集関連のバリエーションの学習に焦点を合わせることができました。コード、モデル、インターフェースは、将来の研究を促進するために公開されます。

関連論文リスト

EditP23: 3D Editing via Propagation of Image Prompts to Multi-View [49.5776584729283]
本研究では,マスクのない3D編集手法であるEditP23を提案する。テキストベースのプロンプトや明示的な空間マスクに依存する従来のアプローチとは対照的に、EditP23は2つのイメージを条件付けすることで直感的な編集を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:50:20Z)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。 3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳（メタデータ） (2024-11-24T07:02:56Z)
Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文参考訳（メタデータ） (2024-05-27T04:44:36Z)
Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文参考訳（メタデータ） (2023-12-21T08:40:57Z)
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文参考訳（メタデータ） (2023-12-14T18:59:06Z)
Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文参考訳（メタデータ） (2023-12-13T23:27:17Z)
Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文参考訳（メタデータ） (2023-09-10T02:31:50Z)
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文参考訳（メタデータ） (2023-07-02T09:11:09Z)
SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文参考訳（メタデータ） (2023-03-23T13:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。