論文の概要: IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations
- arxiv url: http://arxiv.org/abs/2412.12083v2
- Date: Wed, 19 Mar 2025 15:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:20:09.587411
- Title: IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations
- Title(参考訳): IDArb: 任意数の入力ビューと照度に関する本質的な分解
- Authors: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin,
- Abstract要約: 画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
- 参考スコア(独自算出の注目度): 64.07859467542664
- License:
- Abstract: Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.
- Abstract(参考訳): 画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、幾何、材料特性、環境光を高密度のマルチビュー入力から再構築するのに何時間もの計算時間を要するが、それでも光と材料の間に固有の曖昧さに悩まされている。
一方、学習に基づくアプローチでは、既存の3Dオブジェクトデータセットからの豊富な素材の優先順位を活用できるが、マルチビューの一貫性を維持する上での課題に直面している。
本稿では,様々な照明条件下での任意の画像に対して本質的な分解を行うための拡散モデルであるIDArbを紹介する。
本手法は, 表面の正常値と材料特性について, 高精度かつ多視点で一貫した評価を行う。
これは、新しいクロスビュー、クロスドメインアテンションモジュール、照明強化されたビュー適応型トレーニング戦略によって実現されている。
さらに,多様な照明条件下での大規模マルチビュー固有のデータとレンダリングを提供し,ロバストトレーニングをサポートする新しいデータセットであるABB-Objaverseを紹介する。
大規模な実験により、IDArbは定性的かつ定量的に最先端の手法より優れていることが示された。
さらに,本手法は,映像のリライティング,光度ステレオ,3D再構成など,様々なダウンストリーム作業を容易にし,現実的な3Dコンテンツ作成における幅広い応用を強調している。
関連論文リスト
- OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.706361479680055]
295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。
OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。
これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
論文 参考訳(メタデータ) (2024-06-13T07:46:17Z) - IntrinsicAnything: Learning Diffusion Priors for Inverse Rendering Under Unknown Illumination [37.96484120807323]
本稿では,未知の静止照明条件下で撮影されたポーズ画像から対象物質を回収することを目的とする。
我々は、最適化プロセスの正規化のための生成モデルを用いて、その材料を事前に学習する。
実世界および合成データセットを用いた実験により,本手法が材料回収における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-04-17T17:45:08Z) - DeLiRa: Self-Supervised Depth, Light, and Radiance Fields [32.350984950639656]
可変ボリュームレンダリングは、3次元再構成と新しいビュー合成のための強力なパラダイムである。
標準的なボリュームレンダリングアプローチは、視点の多様性が限られている場合、縮退したジオメトリーと競合する。
本研究では,多視点測光目標を体積レンダリングのための幾何正則化器として用いることを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:16:25Z) - MS-PS: A Multi-Scale Network for Photometric Stereo With a New
Comprehensive Training Dataset [0.0]
光度ステレオ(PS)問題は、物体の3次元表面を再構成することである。
そこで我々は,PSのマルチスケールアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-25T14:01:54Z) - NeILF: Neural Incident Light Field for Physically-based Material
Estimation [31.230609753253713]
本稿では,多視点画像と再構成幾何から物質と照明を推定するための微分可能なレンダリングフレームワークを提案する。
本フレームワークでは,シーン照明をニューラルインシデント光電場(NeILF)と表現し,多層パーセプトロンでモデル化した表面BRDFとして材料特性を示す。
論文 参考訳(メタデータ) (2022-03-14T15:23:04Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。