論文の概要: IDT: A Physically Grounded Transformer for Feed-Forward Multi-View Intrinsic Decomposition
- arxiv url: http://arxiv.org/abs/2512.23667v1
- Date: Mon, 29 Dec 2025 18:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.61166
- Title: IDT: A Physically Grounded Transformer for Feed-Forward Multi-View Intrinsic Decomposition
- Title(参考訳): IDT: フィードフォワード型多視点固有分解用物理接地変圧器
- Authors: Kang Du, Yirui Guan, Zeyu Wang,
- Abstract要約: マルチビュー内在画像分解のためのフィードフォワードフレームワークであるtextbfIntrinsic Decomposition Transformer (IDT) を提案する。
IDTは、反復的な生成サンプリングをすることなく、単一の前方通過においてビュー一貫性の内在因子を生成する。
合成と実世界の両方のデータセットの実験では、IDTはよりクリーンな拡散反射、よりコヒーレントな拡散シェーディング、より良い分離された特異成分を達成している。
- 参考スコア(独自算出の注目度): 8.387140306702799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic image decomposition is fundamental for visual understanding, as RGB images entangle material properties, illumination, and view-dependent effects. Recent diffusion-based methods have achieved strong results for single-view intrinsic decomposition; however, extending these approaches to multi-view settings remains challenging, often leading to severe view inconsistency. We propose \textbf{Intrinsic Decomposition Transformer (IDT)}, a feed-forward framework for multi-view intrinsic image decomposition. By leveraging transformer-based attention to jointly reason over multiple input images, IDT produces view-consistent intrinsic factors in a single forward pass, without iterative generative sampling. IDT adopts a physically grounded image formation model that explicitly decomposes images into diffuse reflectance, diffuse shading, and specular shading. This structured factorization separates Lambertian and non-Lambertian light transport, enabling interpretable and controllable decomposition of material and illumination effects across views. Experiments on both synthetic and real-world datasets demonstrate that IDT achieves cleaner diffuse reflectance, more coherent diffuse shading, and better-isolated specular components, while substantially improving multi-view consistency compared to prior intrinsic decomposition methods.
- Abstract(参考訳): 固有画像分解は、RGB画像が材料特性、照明、ビュー依存効果を絡み合わせるため、視覚的理解に不可欠である。
近年の拡散法は, 単一ビュー内在分解において強い結果が得られたが, これらの手法を複数ビュー設定に拡張することは依然として困難であり, 多くの場合, 厳しい視点の不整合をもたらす。
マルチビュー内在画像分解のためのフィードフォワードフレームワークである textbf{Intrinsic Decomposition Transformer (IDT) を提案する。
複数の入力画像に対する共同推論にトランスフォーマーに基づく注意を生かして、IDTは、反復的な生成サンプリングをすることなく、単一の前方通過においてビュー一貫性固有の固有要素を生成する。
IDTは物理的に基底化された画像形成モデルを採用し、画像を拡散反射率、拡散シェーディング、スペクトルシェーディングに明示的に分解する。
この構造的因子化はランベルティアン光と非ランベルティアン光の輸送を分離し、解釈可能かつ制御可能な材料分解とビュー間の照明効果を可能にする。
合成と実世界の両方のデータセットの実験により、IDTはよりクリーンな拡散反射率、よりコヒーレントな拡散シェーディング、より優れた分離された特異成分を実現し、従来の本質的な分解法と比較して、マルチビューの一貫性を著しく向上することが示された。
関連論文リスト
- Rectifying Latent Space for Generative Single-Image Reflection Removal [16.341477336909765]
単一画像の除去は、既存の手法が崩壊した領域の構成を推論するのに苦労する、非常に不適切な問題である。
この研究は、編集目的の潜在拡散モデルを再設計し、高度に曖昧で層状な画像入力を効果的に知覚し、処理する。
論文 参考訳(メタデータ) (2025-12-06T09:16:14Z) - Reflection Removal through Efficient Adaptation of Diffusion Transformers [30.68558779968187]
単像反射除去のための拡散変換器(DiT)フレームワークを提案する。
我々は,既存の反射除去データソースを多様性,拡張性,フォトリアリズムについて分析する。
現実的なガラス材料と反射効果を合成するために,Blenderに物理ベースレンダリングパイプラインを構築した。
論文 参考訳(メタデータ) (2025-12-04T17:12:39Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - MaterialRefGS: Reflective Gaussian Splatting with Multi-view Consistent Material Inference [83.38607296779423]
より物理的な環境モデルを用いた多視点一貫した物質推定がガウススプラッティングによる正確な反射の学習の鍵となることを示す。
本手法は照明と幾何学の両方を忠実に復元し,新しいビュー合成における最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-10-13T13:29:20Z) - Reti-Diff: Illumination Degradation Image Restoration with Retinex-based
Latent Diffusion Model [59.08821399652483]
照明劣化画像復元(IDIR)技術は、劣化した画像の視認性を改善し、劣化した照明の悪影響を軽減することを目的としている。
これらのアルゴリズムのうち、拡散モデル(DM)に基づく手法は期待できる性能を示しているが、画像レベルの分布を予測する際に、重い計算要求や画素の不一致の問題に悩まされることが多い。
我々は、コンパクトな潜在空間内でDMを活用して、簡潔な指導先を生成することを提案し、IDIRタスクのためのReti-Diffと呼ばれる新しいソリューションを提案する。
Reti-Diff は Retinex-based Latent DM (RLDM) と Retinex-Guided Transformer (RG) の2つの鍵成分からなる。
論文 参考訳(メタデータ) (2023-11-20T09:55:06Z) - NeFII: Inverse Rendering for Reflectance Decomposition with Near-Field
Indirect Illumination [48.42173911185454]
逆レンダリング手法は、多視点RGB画像から幾何学、材料、照明を推定することを目的としている。
本稿では,多視点画像から材料と照明を分解するエンドツーエンドの逆レンダリングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-29T12:05:19Z) - DANI-Net: Uncalibrated Photometric Stereo by Differentiable Shadow
Handling, Anisotropic Reflectance Modeling, and Neural Inverse Rendering [75.86523223933912]
非平衡測光ステレオ(UPS)は、未知の光によってもたらされる固有の曖昧さのために困難である。
異方性シャドーハンドリングと異方性リフレクタンスモデリングを備えた逆レンダリングフレームワークであるDANI-Netを提案する。
我々のネットワークは、2つの異なる経路を通る影と異方性反射の手がかりから恩恵を受ける。
論文 参考訳(メタデータ) (2023-03-27T11:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。