論文の概要: 3D-Fixup: Advancing Photo Editing with 3D Priors
- arxiv url: http://arxiv.org/abs/2505.10566v1
- Date: Thu, 15 May 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.466155
- Title: 3D-Fixup: Advancing Photo Editing with 3D Priors
- Title(参考訳): 3D-Fixup:3Dプリミティブで写真の編集を改善
- Authors: Yen-Chi Cheng, Krishna Kumar Singh, Jae Shin Yoon, Alex Schwing, Liangyan Gui, Matheus Gadelha, Paul Guerrero, Nanxuan Zhao,
- Abstract要約: 3D-Fixupは、学習した3Dプリエントによってガイドされた2Dイメージを編集する新しいフレームワークである。
拡散モデルの生成力を利用するトレーニングベースアプローチを利用する。
3D-Fixupは複雑でアイデンティティの整合した3D認識編集を効果的にサポートする。
- 参考スコア(独自算出の注目度): 32.83193513442457
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing remains challenging, in part because the object is only specified via a single image. To tackle this challenge, we propose 3D-Fixup, a new framework for editing 2D images guided by learned 3D priors. The framework supports difficult editing situations such as object translation and 3D rotation. To achieve this, we leverage a training-based approach that harnesses the generative power of diffusion models. As video data naturally encodes real-world physical dynamics, we turn to video data for generating training data pairs, i.e., a source and a target frame. Rather than relying solely on a single trained model to infer transformations between source and target frames, we incorporate 3D guidance from an Image-to-3D model, which bridges this challenging task by explicitly projecting 2D information into 3D space. We design a data generation pipeline to ensure high-quality 3D guidance throughout training. Results show that by integrating these 3D priors, 3D-Fixup effectively supports complex, identity coherent 3D-aware edits, achieving high-quality results and advancing the application of diffusion models in realistic image manipulation. The code is provided at https://3dfixup.github.io/
- Abstract(参考訳): 拡散モデルによる画像先行のモデリングが大幅に進歩したにもかかわらず、3D認識画像編集は、ある部分では、オブジェクトが単一の画像によってのみ指定されるため、難しいままである。
この課題に対処するために,学習した3D先行画像によってガイドされた2D画像を編集する新しいフレームワークである3D-Fixupを提案する。
このフレームワークは、オブジェクト翻訳や3D回転のような難しい編集状況をサポートする。
これを実現するために,拡散モデルの生成力を利用するトレーニングベースアプローチを利用する。
ビデオデータは実世界の物理力学を自然に符号化するので、トレーニングデータペア、すなわちソースとターゲットフレームを生成するためのビデオデータに目を向ける。
ソースフレームとターゲットフレーム間の変換を推測する単一のトレーニングモデルにのみ依存するのではなく、画像から3Dモデルからの3Dガイダンスを組み込むことで、2D情報を3D空間に明示的に投影することで、この課題を埋め込むことができる。
トレーニングを通じて高品質な3Dガイダンスを確保するために,データ生成パイプラインを設計する。
その結果、3D-Fixupは、これらの3Dプリエントを統合することで、複雑なアイデンティティコヒーレントな3D対応編集を効果的にサポートし、高品質な結果を実現し、現実的な画像操作における拡散モデルの適用を推し進めることを示す。
コードはhttps://3dfixup.github.io/で提供されている。
関連論文リスト
- Text-to-3D Generation by 2D Editing [17.17448279533487]
事前訓練された2D拡散モデルから3D表現を蒸留することは、ゲーム、フィルム、インテリアデザインの3Dクリエイティブアプリケーションに不可欠である。
現在のSDS法は拡散モデルからの非効率な情報蒸留によって妨げられ、光現実的な3Dコンテンツの作成を妨げている。
本稿では,事前学習した拡散モデルを用いて,複数ステップで多粒度情報を抽出する3次元編集(GE3D)を提案する。
論文 参考訳(メタデータ) (2024-12-08T12:53:05Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation [0.0]
編集可能なダイナミック3Dモデルとビデオ生成のための1つの画像は、単一の画像の研究領域を3D表現や画像の3D再構成に変換する新しい方向と変化である。
編集可能な3Dモデルを生成し,対象とする連続時間無制限の3Dビデオを生成するために,単一の画像を使用する方法と理論であるOneTo3Dを提案する。
論文 参考訳(メタデータ) (2024-05-10T15:44:11Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。