論文の概要: Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2506.03538v1
- Date: Wed, 04 Jun 2025 03:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.136176
- Title: Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting
- Title(参考訳): 非対称2次元ガウススプレイティングによる野生のロバストニューラルレンダリング
- Authors: Chengqi Li, Zhihao Shi, Yangdi Lu, Wenbo He, Xiangyu Xu,
- Abstract要約: 光源内画像からの3D再構成は、一貫性のない照明条件と過渡的注意散らしのため、依然として困難な課題である。
既存の手法は、しばしば安定的で一貫した再構築を行うのに苦労する低品質なトレーニングデータを扱うための戦略に依存している。
本稿では,これらのアーティファクトの収束性を利用した新しいフレームワークである非対称デュアル3DGSを提案する。
- 参考スコア(独自算出の注目度): 30.566082713819117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D reconstruction from in-the-wild images remains a challenging task due to inconsistent lighting conditions and transient distractors. Existing methods typically rely on heuristic strategies to handle the low-quality training data, which often struggle to produce stable and consistent reconstructions, frequently resulting in visual artifacts. In this work, we propose Asymmetric Dual 3DGS, a novel framework that leverages the stochastic nature of these artifacts: they tend to vary across different training runs due to minor randomness. Specifically, our method trains two 3D Gaussian Splatting (3DGS) models in parallel, enforcing a consistency constraint that encourages convergence on reliable scene geometry while suppressing inconsistent artifacts. To prevent the two models from collapsing into similar failure modes due to confirmation bias, we introduce a divergent masking strategy that applies two complementary masks: a multi-cue adaptive mask and a self-supervised soft mask, which leads to an asymmetric training process of the two models, reducing shared error modes. In addition, to improve the efficiency of model training, we introduce a lightweight variant called Dynamic EMA Proxy, which replaces one of the two models with a dynamically updated Exponential Moving Average (EMA) proxy, and employs an alternating masking strategy to preserve divergence. Extensive experiments on challenging real-world datasets demonstrate that our method consistently outperforms existing approaches while achieving high efficiency. Codes and trained models will be released.
- Abstract(参考訳): 光源内画像からの3D再構成は、一貫性のない照明条件と過渡的注意散らしのため、依然として困難な課題である。
既存の手法は通常、低品質のトレーニングデータを扱うためのヒューリスティックな戦略に依存しており、安定的で一貫した再構築に苦しむことが多く、視覚的なアーティファクトをもたらすことが多い。
本研究では,これらのアーティファクトの確率的性質を活用する新しいフレームワークであるAsymmetric Dual 3DGSを提案する。
具体的には、2つの3次元ガウススプラッティング(3DGS)モデルを並列にトレーニングし、一貫性の制約を課し、不整合なアーティファクトを抑えながら、信頼性の高いシーン形状の収束を促す。
確認バイアスにより2つのモデルが同様の障害モードに崩壊するのを防ぐため,複数キュー適応マスクと自己教師型ソフトマスクの2つの相補マスクを適用した分岐マスク方式を導入する。
さらに,モデルトレーニングの効率を向上させるために,動的EMAプロキシ(Exponential moving Average, EMA)プロキシを動的に更新した2つのモデルのうちの1つを置き換える,Dynamic EMAプロキシ(Dynamic EMA Proxy)という軽量版を導入する。
実世界のデータセットに挑戦する大規模な実験により、我々の手法は、高い効率を保ちながら既存のアプローチを一貫して上回ることを示した。
コードとトレーニングされたモデルがリリースされる。
関連論文リスト
- RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS [79.15416002879239]
3D Gaussian Splattingは、ノベルビュー合成と3Dモデリングにおけるリアルタイム、フォトリアリスティックレンダリングにおいて大きな注目を集めている。
既存の手法は、過渡的なオブジェクトに影響されたシーンを正確にモデル化するのに苦労し、描画された画像のアーティファクトに繋がる。
2つの重要な設計に基づく堅牢なソリューションであるRobustSplatを提案する。
論文 参考訳(メタデータ) (2025-06-03T11:13:48Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - RIGI: Rectifying Image-to-3D Generation Inconsistency via Uncertainty-aware Learning [27.4552892119823]
マルチビュースナップショットの不整合は、しばしばオブジェクト境界に沿ってノイズやアーティファクトを導入し、3D再構成プロセスを損なう。
3次元ガウススプラッティング(3DGS)を3次元再構成に利用し,不確実性認識学習を再現プロセスに統合する。
適応的な画素単位の損失重み付けを適用してモデルを正規化し、不確実領域における再構成強度を低減させる。
論文 参考訳(メタデータ) (2024-11-28T02:19:28Z) - DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes [39.687526103092445]
本稿では,3次元シーンのガウススプラッティング表現に2次元画像特徴を引き上げる新しい手法を提案する。
DINOv2はSAMのような数百万の注釈付きセグメンテーションマスクで訓練されていないにもかかわらず、汎用的なDINOv2特徴を用いて競合セグメンテーション結果を得る。
CLIP機能に適用すると,オープン語彙オブジェクトローカライゼーションタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-10-18T13:44:29Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。