論文の概要: MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation
- arxiv url: http://arxiv.org/abs/2505.21483v1
- Date: Tue, 27 May 2025 17:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.846382
- Title: MV-CoLight: Efficient Object Compositing with Consistent Lighting and Shadow Generation
- Title(参考訳): MV-CoLight: 一貫性照明とシャドウ生成による効率的なオブジェクト合成
- Authors: Kerui Ren, Jiayang Bai, Linning Xu, Lihan Jiang, Jiangmiao Pang, Mulin Yu, Bo Dai,
- Abstract要約: MV-CoLightは2Dおよび3Dシーンで合成される照度一貫性のあるオブジェクトのためのフレームワークである。
2次元画像入力と3次元ガウスシーン表現をシームレスに整列するために、ヒルベルト曲線に基づく写像を用いる。
実験では、標準ベンチマークとデータセット間で、最先端の調和した結果を実証した。
- 参考スコア(独自算出の注目度): 19.46962637673285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object compositing offers significant promise for augmented reality (AR) and embodied intelligence applications. Existing approaches predominantly focus on single-image scenarios or intrinsic decomposition techniques, facing challenges with multi-view consistency, complex scenes, and diverse lighting conditions. Recent inverse rendering advancements, such as 3D Gaussian and diffusion-based methods, have enhanced consistency but are limited by scalability, heavy data requirements, or prolonged reconstruction time per scene. To broaden its applicability, we introduce MV-CoLight, a two-stage framework for illumination-consistent object compositing in both 2D images and 3D scenes. Our novel feed-forward architecture models lighting and shadows directly, avoiding the iterative biases of diffusion-based methods. We employ a Hilbert curve-based mapping to align 2D image inputs with 3D Gaussian scene representations seamlessly. To facilitate training and evaluation, we further introduce a large-scale 3D compositing dataset. Experiments demonstrate state-of-the-art harmonized results across standard benchmarks and our dataset, as well as casually captured real-world scenes demonstrate the framework's robustness and wide generalization.
- Abstract(参考訳): オブジェクト合成は、拡張現実(AR)および具体的インテリジェンスアプリケーションに重要な約束を提供する。
既存のアプローチは主に単一イメージのシナリオや本質的な分解技術に重点を置いており、複数ビューの一貫性、複雑なシーン、多様な照明条件といった課題に直面している。
近年の3Dガウス法や拡散法などの逆レンダリング法では一貫性が向上しているが,拡張性,重データ要求,シーン毎の長期再構成時間に制限されている。
適用性を高めるために,2次元画像と3次元シーンの両方に照度一貫性のあるオブジェクトを合成する2段階フレームワークであるMV-CoLightを導入する。
我々の新しいフィードフォワードアーキテクチャは光と影を直接モデル化し、拡散に基づく手法の反復バイアスを回避する。
2次元画像入力と3次元ガウスシーン表現をシームレスに整列するために、ヒルベルト曲線に基づく写像を用いる。
トレーニングと評価を容易にするため,大規模3D合成データセットも導入する。
実験では、標準ベンチマークとデータセットにまたがって、最先端の調和した結果を実証するとともに、実世界のシーンをカジュアルにキャプチャして、フレームワークの堅牢性と広範な一般化を実証した。
関連論文リスト
- SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [42.69229582451846]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。