論文の概要: Disentangled Generation and Aggregation for Robust Radiance Fields
- arxiv url: http://arxiv.org/abs/2409.15715v1
- Date: Tue, 24 Sep 2024 04:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 09:11:12.473217
- Title: Disentangled Generation and Aggregation for Robust Radiance Fields
- Title(参考訳): ロバスト放射場における遠絡生成と凝集
- Authors: Shihe Shen, Huachen Gao, Wangze Xu, Rui Peng, Luyang Tang, Kaiqiang Xiong, Jianbo Jiao, Ronggang Wang,
- Abstract要約: 三面体ベースの放射場は、高品質な表現と低コストな計算で、3Dシーンを効果的に切り離すことができる。
しかし、トリプレーンの局所的な更新特性のため、前回のポーズ-NeRF最適化と同様の関節推定は局所的なミニマで容易に実現できる。
本研究では,三面学習にグローバルな特徴コンテキストと滑らかさを導入するために,Distangled Triplane Generationモジュールを提案する。
さらに,三葉機発電機による暗黙的制約を軽減するために,2段階のウォームスタートトレーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 25.865597946144163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The utilization of the triplane-based radiance fields has gained attention in recent years due to its ability to effectively disentangle 3D scenes with a high-quality representation and low computation cost. A key requirement of this method is the precise input of camera poses. However, due to the local update property of the triplane, a similar joint estimation as previous joint pose-NeRF optimization works easily results in local minima. To this end, we propose the Disentangled Triplane Generation module to introduce global feature context and smoothness into triplane learning, which mitigates errors caused by local updating. Then, we propose the Disentangled Plane Aggregation to mitigate the entanglement caused by the common triplane feature aggregation during camera pose updating. In addition, we introduce a two-stage warm-start training strategy to reduce the implicit constraints caused by the triplane generator. Quantitative and qualitative results demonstrate that our proposed method achieves state-of-the-art performance in novel view synthesis with noisy or unknown camera poses, as well as efficient convergence of optimization. Project page: https://gaohchen.github.io/DiGARR/.
- Abstract(参考訳): 近年,3次元シーンを高品質な表現と低計算コストで効果的に切り離す能力により,三面体に基づく放射界の利用が注目されている。
この方法の重要な要件は、カメラポーズの正確な入力である。
しかし、三面体の局所的な更新特性のため、前回の継手ポーズ-NeRF最適化と同様の関節推定は局所的なミニマに容易に作用する。
そこで本研究では,局所更新による誤りを軽減し,グローバルな特徴コンテキストとスムーズさを三面学習に導入するDistangled Triplane Generationモジュールを提案する。
そこで本稿では,カメラポーズ更新時の共通3面特徴凝集による絡み合いを軽減するために,ディスタングル平面凝集法を提案する。
さらに,三葉機発電機による暗黙的制約を軽減するために,2段階のウォームスタートトレーニング戦略を導入する。
定量的および定性的な結果から,提案手法は,ノイズや未知のカメラポーズを用いた新しいビュー合成における最先端性能と,最適化の効率的な収束性を実証した。
プロジェクトページ: https://gaohchen.github.io/DiGARR/。
関連論文リスト
- PoI: Pixel of Interest for Novel View Synthesis Assisted Scene Coordinate Regression [28.39136566857838]
提案手法は,下位の画素を除去しながら,高解像度画素を選択的に抽出する,新しいフィルタリング手法を提案する。
このフィルタは、トレーニング中にSCRモデルのリアルタイム再投射損失と勾配を同時に測定する。
このフィルタリング技術に基づいて,スパース入力を用いてシーン座標の回帰を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2025-02-07T11:24:23Z) - Unleashing the Power of Data Synthesis in Visual Localization [17.159091187694884]
クェリ画像からカメラがポーズする手法は高速な推論のために注目されている。
我々は、ポーズ回帰の一般化を促進するために、データ合成の力を解き放つことを目的としている。
両腕共同訓練パイプラインを構築し, 対角分離器を用いて, 合成と現実のギャップを埋める。
論文 参考訳(メタデータ) (2024-11-28T16:58:10Z) - DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。
本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。
一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文 参考訳(メタデータ) (2024-09-11T18:58:16Z) - SG-NeRF: Neural Surface Reconstruction with Scene Graph Optimization [16.460851701725392]
本稿では,外乱ポーズの影響を軽減するため,シーングラフを用いた放射場最適化手法を提案する。
本手法では,シーングラフに基づく適応型不整合・不整合信頼度推定手法を取り入れた。
また、カメラのポーズと表面形状を最適化するために、効果的な交叉結合(IoU)損失を導入する。
論文 参考訳(メタデータ) (2024-07-17T15:50:17Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - LoLep: Single-View View Synthesis with Locally-Learned Planes and
Self-Attention Occlusion Inference [66.45326873274908]
本稿では,1枚のRGB画像から局所学習平面を回帰してシーンを正確に表現するLoLepを提案する。
MINEと比較して、LPIPSは4.8%-9.0%、RVは73.9%-83.5%である。
論文 参考訳(メタデータ) (2023-07-23T03:38:55Z) - LENS: Localization enhanced by NeRF synthesis [3.4386226615580107]
アルゴリズムのNeRFクラスによって描画された追加の合成データセットにより、カメラポーズの回帰が向上することを示す。
我々はさらに、トレーニング中のデータ拡張として、合成現実的および幾何学的一貫した画像を用いて、ポーズ回帰器の局所化精度を向上した。
論文 参考訳(メタデータ) (2021-10-13T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。