論文の概要: Multi-scale Attention-Guided Intrinsic Decomposition and Rendering Pass Prediction for Facial Images
- arxiv url: http://arxiv.org/abs/2512.16511v1
- Date: Thu, 18 Dec 2025 13:23:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.071128
- Title: Multi-scale Attention-Guided Intrinsic Decomposition and Rendering Pass Prediction for Facial Images
- Title(参考訳): 顔画像のマルチスケール注意誘導内在分解とレンダリングパス予測
- Authors: Hossein Javidnia,
- Abstract要約: 本稿では,1枚のRGBポートレートから光正規化拡散アルベドマップを予測するマルチスケールアテンションガイド型内在ネットワークMAGINetを提案する。
パイプラインは拡散アルベド推定のための最先端性能を達成し、従来の手法と比較して、完全なレンダリングスタックの忠実度が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate intrinsic decomposition of face images under unconstrained lighting is a prerequisite for photorealistic relighting, high-fidelity digital doubles, and augmented-reality effects. This paper introduces MAGINet, a Multi-scale Attention-Guided Intrinsics Network that predicts a $512\times512$ light-normalized diffuse albedo map from a single RGB portrait. MAGINet employs hierarchical residual encoding, spatial-and-channel attention in a bottleneck, and adaptive multi-scale feature fusion in the decoder, yielding sharper albedo boundaries and stronger lighting invariance than prior U-Net variants. The initial albedo prediction is upsampled to $1024\times1024$ and refined by a lightweight three-layer CNN (RefinementNet). Conditioned on this refined albedo, a Pix2PixHD-based translator then predicts a comprehensive set of five additional physically based rendering passes: ambient occlusion, surface normal, specular reflectance, translucency, and raw diffuse colour (with residual lighting). Together with the refined albedo, these six passes form the complete intrinsic decomposition. Trained with a combination of masked-MSE, VGG, edge, and patch-LPIPS losses on the FFHQ-UV-Intrinsics dataset, the full pipeline achieves state-of-the-art performance for diffuse albedo estimation and demonstrates significantly improved fidelity for the complete rendering stack compared to prior methods. The resulting passes enable high-quality relighting and material editing of real faces.
- Abstract(参考訳): 非拘束照明下での顔画像の正確な内在分解は、光リアルリライティング、高忠実度デジタルダブルス、拡張現実効果の前提条件である。
本稿では,1枚のRGBポートレートから512\times512$の光正規化拡散アルベドマップを推定するマルチスケールアテンションガイド型内在ネットワークMAGINetを紹介する。
MAGINetは、階層的残差符号化、ボトルネックにおける空間的・チャネル的注意、デコーダにおける適応的なマルチスケール特徴融合を採用し、よりシャープなアルベド境界と以前のU-Net変種よりも強力な照明不変性をもたらす。
最初のアルベド予測は1024\times1024$にアップサンプルされ、軽量な3層CNN(RefinementNet)によって洗練されている。
この洗練されたアルベドを条件に、Pix2PixHDベースのトランスレータは、周囲の閉塞、表面の正常、反射率、透過率、および(残留光を含む)生の拡散色という5つの物理ベースのレンダリングパスを包括的に予測する。
精製されたアルベドとともに、これら6つのパスは完全な内生分解を形成する。
FFHQ-UV-Intrinsicsデータセット上で、マスク付きMSE、VGG、エッジ、パッチ-LPIPS損失の組み合わせでトレーニングされた完全なパイプラインは、拡散アルベド推定のための最先端のパフォーマンスを達成し、以前の方法と比較して、完全なレンダリングスタックの忠実度が大幅に向上したことを示す。
その結果、実際の顔の高品質なリライトと素材編集が可能になる。
関連論文リスト
- UnReflectAnything: RGB-Only Highlight Removal by Rendering Synthetic Specular Supervision [51.72020507506023]
我々は、単一の画像からハイライトを削除するRGB専用のフレームワークUnReflectAnythingを紹介する。
反射のない拡散再構成とともにハイライトマップを予測する。
自然と外科の領域にまたがって一般化され、非ランベルト面や一様でない照明が顕著なハイライトを生み出している。
論文 参考訳(メタデータ) (2025-12-10T12:22:37Z) - Does FLUX Already Know How to Perform Physically Plausible Image Composition? [26.848563827256914]
ShiNEは、中性化エラーを伴うシームレス、高忠実な挿入のためのトレーニング不要のフレームワークである。
我々は,低照度,強い照明,複雑な影,反射面などの多様な解像度と課題を特徴とするコンプレックスコンプレックスを導入する。
論文 参考訳(メタデータ) (2025-09-25T15:01:49Z) - Neural Spline Fields for Burst Image Fusion and Layer Separation [40.9442467471977]
ニューラルスプライン場を用いた2層α合成画像とフローモデルを用いた多目的中間表現を提案する。
提案手法では, バースト画像を高分解能な再構成に融合し, 透過層と閉塞層に分解することができる。
後処理のステップや事前学習がないため、当社の一般化可能なモデルは、既存の専用イメージやマルチビューの障害物除去アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-21T18:54:19Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Spatiotemporally Consistent HDR Indoor Lighting Estimation [66.26786775252592]
本研究では,屋内照明推定問題を解決するための物理動機付きディープラーニングフレームワークを提案する。
深度マップを用いた1枚のLDR画像から,任意の画像位置における空間的に一貫した照明を予測できる。
我々のフレームワークは、最先端の単一画像やビデオベースの手法と比較して、高画質で光リアリスティック照明予測を実現する。
論文 参考訳(メタデータ) (2023-05-07T20:36:29Z) - Progressively-connected Light Field Network for Efficient View Synthesis [69.29043048775802]
本稿では、複雑な前方シーンのビュー合成のためのプログレッシブ・コネクテッド・ライトフィールド・ネットワーク(ProLiF)を提案する。
ProLiFは4Dライトフィールドをエンコードし、画像やパッチレベルの損失に対するトレーニングステップで大量の光線をレンダリングすることができる。
論文 参考訳(メタデータ) (2022-07-10T13:47:20Z) - Intrinsic Image Transfer for Illumination Manipulation [1.2387676601792899]
本稿では,照明操作のための固有画像転送(IIT)アルゴリズムを提案する。
2つの照明面間の局所的な画像変換を生成する。
本報告では,本質的な画像分解を行うことなく,全ての損失を低減できることを示す。
論文 参考訳(メタデータ) (2021-07-01T19:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。