論文の概要: GeoRelight: Learning Joint Geometrical Relighting and Reconstruction with Flexible Multi-Modal Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2604.20715v1
- Date: Wed, 22 Apr 2026 16:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.212031
- Title: GeoRelight: Learning Joint Geometrical Relighting and Reconstruction with Flexible Multi-Modal Diffusion Transformers
- Title(参考訳): GeoRelight: フレキシブル多モード拡散変換器を用いた共同幾何学的リライトと再構成の学習
- Authors: Yuxuan Xue, Ruofan Liang, Egor Zakharov, Timur Bagautdinov, Chen Cao, Giljoo Nam, Shunsuke Saito, Gerard Pons-Moll, Javier Romero,
- Abstract要約: 我々は,GeoRelightと共同で解決する統合多モード拡散変換器(DiT)を提案する。
幾何学とリライティングを共同で解くことで、GeoRelightは、幾何を無視したシーケンシャルモデルと従来のシステムの両方よりも優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 43.42790302992904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relighting a person from a single photo is an attractive but ill-posed task, as a 2D image ambiguously entangles 3D geometry, intrinsic appearance, and illumination. Current methods either use sequential pipelines that suffer from error accumulation, or they do not explicitly leverage 3D geometry during relighting, which limits physical consistency. Since relighting and estimation of 3D geometry are mutually beneficial tasks, we propose a unified Multi-Modal Diffusion Transformer (DiT) that jointly solves for both: GeoRelight. We make this possible through two key technical contributions: isotropic NDC-Orthographic Depth (iNOD), a distortion-free 3D representation compatible with latent diffusion models; and a strategic mixed-data training method that combines synthetic and auto-labeled real data. By solving geometry and relighting jointly, GeoRelight achieves better performance than both sequential models and previous systems that ignored geometry.
- Abstract(参考訳): 1枚の写真から人をリライティングすることは魅力的だが不適切な作業であり、2D画像は明らかに3D幾何学、本質的な外観、照明を絡ませている。
現在のメソッドでは、エラーの蓄積に苦しむシーケンシャルパイプラインを使用するか、リライト時に3D幾何学を明示的に利用しないため、物理的な一貫性が制限されている。
3次元幾何のリライティングと推定は相互に有益であるので,GeoRelightと共同で解決する多モード拡散変換器(DiT)を提案する。
我々は、等方性NDC-Orthographic Depth (iNOD)、遅延拡散モデルと互換性のある歪みのない3D表現、および合成データと自動ラベル付き実データを組み合わせた戦略的混合データ訓練方法の2つの技術貢献を通してこれを実現している。
幾何学とリライティングを共同で解くことで、GeoRelightは、幾何を無視したシーケンシャルモデルと従来のシステムの両方よりも優れたパフォーマンスを達成する。
関連論文リスト
- Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps [51.82696819319878]
単分子深度から光を識別する新しい表現である光幾何相互作用マップを提案する。
LGIは、オフザシェルフ2.5D深度マップ予測から計算された、確実かつ正確に光と影の相互作用をキャプチャする。
LGIをブリッジマッチングした生成バックボーンに埋め込むことで、曖昧さを低減し、物理的に一貫した光陰性推論を強制する。
論文 参考訳(メタデータ) (2026-02-25T11:47:26Z) - Spherical Geometry Diffusion: Generating High-quality 3D Face Geometry via Sphere-anchored Representations [18.442834011472005]
テキストから3Dの顔生成における根本的な課題は、高品質な幾何学を実現することである。
球面座標に幾何学的信号を固定する新しい顔表現である球面幾何表現を導入する。
次に、この2次元マップ上に構築された条件拡散フレームワークである球拡散幾何学を紹介する。
論文 参考訳(メタデータ) (2026-01-19T20:15:45Z) - Joint Geometry-Appearance Human Reconstruction in a Unified Latent Space via Bridge Diffusion [57.09673862519791]
本稿では,幾何学と外観のモデリングを結合潜在表現に統一する新しいフレームワークである textbfJGA-LBD を紹介する。
実験により、JGA-LBDは、幾何学的忠実度と外観品質の両方の観点から、現在の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-01T12:48:56Z) - Geometry Meets Light: Leveraging Geometric Priors for Universal Photometric Stereo under Limited Multi-Illumination Cues [24.171649472398514]
GeoUniPS(GeoUniPS)は、合成監督と高レベルの幾何学的先行性を統合する、普遍的な測光ステレオネットワークである。
空間的に異なる視野方向の学習を可能にするために,現実的な視点投影を伴うPS-Perpデータセットを提案する。
論文 参考訳(メタデータ) (2025-11-17T06:14:38Z) - Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling [29.723534231743038]
本稿では,映像拡散モデルと物理世界の3次元的性質のギャップを埋めるために,幾何学的強制法を提案する。
我々の重要な洞察は、事前訓練された幾何学基礎モデルの特徴と整列することで、モデル中間表現を幾何学的構造へ導くことである。
我々は、カメラビューコンディショニングとアクションコンディショニングの両方のビデオ生成タスクにおいて、Geometry Forcingを評価する。
論文 参考訳(メタデータ) (2025-07-10T17:55:08Z) - Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware
Image Synthesis [163.96778522283967]
そこで本研究では,シェーディング誘導型生成暗黙モデルを提案する。
正確な3D形状は、異なる照明条件下でリアルなレンダリングをもたらす必要がある。
複数のデータセットに対する実験により,提案手法が光リアルな3次元画像合成を実現することを示す。
論文 参考訳(メタデータ) (2021-10-29T10:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。