論文の概要: 3D Object Manipulation in a Single Image using Generative Models
- arxiv url: http://arxiv.org/abs/2501.12935v1
- Date: Wed, 22 Jan 2025 15:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:37.057322
- Title: 3D Object Manipulation in a Single Image using Generative Models
- Title(参考訳): 生成モデルを用いた単一画像中の3次元オブジェクト操作
- Authors: Ruisi Zhao, Zechuan Zhang, Zongxin Yang, Yi Yang,
- Abstract要約: 拡散モデルの生成力と正確な幾何学的制御を統合する新しいフレームワークである textbfOMG3D を紹介する。
筆者らのフレームワークはまず2Dオブジェクトを3Dに変換し,幾何学レベルでのユーザ指向の修正やライフライクな動作を可能にする。
注目すべきなのは、これらのステップはすべて、NVIDIA 3090を使って行うことができることだ。
- 参考スコア(独自算出の注目度): 30.241857090353864
- License:
- Abstract: Object manipulation in images aims to not only edit the object's presentation but also gift objects with motion. Previous methods encountered challenges in concurrently handling static editing and dynamic generation, while also struggling to achieve fidelity in object appearance and scene lighting. In this work, we introduce \textbf{OMG3D}, a novel framework that integrates the precise geometric control with the generative power of diffusion models, thus achieving significant enhancements in visual performance. Our framework first converts 2D objects into 3D, enabling user-directed modifications and lifelike motions at the geometric level. To address texture realism, we propose CustomRefiner, a texture refinement module that pre-train a customized diffusion model, aligning the details and style of coarse renderings of 3D rough model with the original image, further refine the texture. Additionally, we introduce IllumiCombiner, a lighting processing module that estimates and corrects background lighting to match human visual perception, resulting in more realistic shadow effects. Extensive experiments demonstrate the outstanding visual performance of our approach in both static and dynamic scenarios. Remarkably, all these steps can be done using one NVIDIA 3090. Project page is at https://whalesong-zrs.github.io/OMG3D-projectpage/
- Abstract(参考訳): 画像内のオブジェクト操作は、オブジェクトのプレゼンテーションを編集するだけでなく、オブジェクトを動きで贈る。
従来の手法では、静的な編集と動的生成の同時処理の課題に遭遇し、オブジェクトの外観やシーンライティングの忠実さを達成できなかった。
本研究では,拡散モデルの生成力と正確な幾何学的制御を統合し,視覚性能の大幅な向上を実現する新しいフレームワークである「textbf{OMG3D}」を紹介する。
筆者らのフレームワークはまず2Dオブジェクトを3Dに変換し,幾何学レベルでのユーザ指向の修正やライフライクな動作を可能にする。
テクスチャリアリズムに対処するために,カスタマイズした拡散モデルの事前訓練を行うテクスチャリファインメントモジュールであるCustomRefinerを提案する。
また、照明処理モジュールであるIllumiCombinerを導入し、背景照明を推定・補正し、人間の視覚的知覚にマッチさせ、より現実的な影効果をもたらす。
大規模な実験は、静的シナリオと動的シナリオの両方において、我々のアプローチの目立った視覚的パフォーマンスを示す。
注目すべきなのは、これらのステップはすべて、NVIDIA 3090を使って行うことができることだ。
プロジェクトページはhttps://whalesong-zrs.github.io/OMG3D-projectpage/にある。
関連論文リスト
- Localized Gaussian Splatting Editing with Contextual Awareness [10.46087834880747]
本稿では,3Dガウススプラッティング(3DGS)表現のための照明対応3Dシーン編集パイプラインを提案する。
最先端条件付き2次元拡散モデルによる塗装は、照明の背景と一致している。
提案手法は,光輸送を明示的にモデル化することなく,局所的な照明の整合性を効果的に実現している。
論文 参考訳(メタデータ) (2024-07-31T18:00:45Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - Blocks2World: Controlling Realistic Scenes with Editable Primitives [5.541644538483947]
我々は3Dシーンのレンダリングと編集のための新しい方法であるBlocks2Worldを提案する。
本手法は,コンベックス分解を用いて,各シーンの様々な物体から3次元並列入力を抽出することから始める。
次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-07-07T21:38:50Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。
異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。
本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文 参考訳(メタデータ) (2023-04-17T13:49:04Z) - A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware
Image Synthesis [163.96778522283967]
そこで本研究では,シェーディング誘導型生成暗黙モデルを提案する。
正確な3D形状は、異なる照明条件下でリアルなレンダリングをもたらす必要がある。
複数のデータセットに対する実験により,提案手法が光リアルな3次元画像合成を実現することを示す。
論文 参考訳(メタデータ) (2021-10-29T10:53:12Z) - Learning Indoor Inverse Rendering with 3D Spatially-Varying Lighting [149.1673041605155]
1枚の画像からアルベド, 正常, 深さ, 3次元の空間的変化を共同で推定する問題に対処する。
既存のほとんどの方法は、シーンの3D特性を無視して、画像から画像への変換としてタスクを定式化する。
本研究では3次元空間変動照明を定式化する統合学習ベースの逆フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。