論文の概要: MonoInstance: Enhancing Monocular Priors via Multi-view Instance Alignment for Neural Rendering and Reconstruction
- arxiv url: http://arxiv.org/abs/2503.18363v1
- Date: Mon, 24 Mar 2025 05:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:11.504099
- Title: MonoInstance: Enhancing Monocular Priors via Multi-view Instance Alignment for Neural Rendering and Reconstruction
- Title(参考訳): MonoInstance: ニューラルレンダリングとリコンストラクションのためのマルチビューインスタンスアライメントによるモノキュラープライオリティの強化
- Authors: Wenyuan Zhang, Yixiao Yang, Han Huang, Liang Han, Kanle Shi, Yu-Shen Liu,
- Abstract要約: 単分子深度は3次元再構成や新しいビュー合成といった多視点タスクにおいてニューラルレンダリングによって広く採用されている。
現在の手法では、推定深度マップ全体を無差別に扱い、地上の真実の監督として利用している。
モノインスタンス(MonoInstance)は,モノクラー深度の不確かさを探索し,拡張された幾何学的事前情報を提供する一般手法である。
- 参考スコア(独自算出の注目度): 28.207183166966118
- License:
- Abstract: Monocular depth priors have been widely adopted by neural rendering in multi-view based tasks such as 3D reconstruction and novel view synthesis. However, due to the inconsistent prediction on each view, how to more effectively leverage monocular cues in a multi-view context remains a challenge. Current methods treat the entire estimated depth map indiscriminately, and use it as ground truth supervision, while ignoring the inherent inaccuracy and cross-view inconsistency in monocular priors. To resolve these issues, we propose MonoInstance, a general approach that explores the uncertainty of monocular depths to provide enhanced geometric priors for neural rendering and reconstruction. Our key insight lies in aligning each segmented instance depths from multiple views within a common 3D space, thereby casting the uncertainty estimation of monocular depths into a density measure within noisy point clouds. For high-uncertainty areas where depth priors are unreliable, we further introduce a constraint term that encourages the projected instances to align with corresponding instance masks on nearby views. MonoInstance is a versatile strategy which can be seamlessly integrated into various multi-view neural rendering frameworks. Our experimental results demonstrate that MonoInstance significantly improves the performance in both reconstruction and novel view synthesis under various benchmarks.
- Abstract(参考訳): 単分子深度は3次元再構成や新しいビュー合成といった多視点タスクにおいてニューラルレンダリングによって広く採用されている。
しかし、各視点における矛盾した予測のため、より効果的に単分子的手がかりを多視点で活用する方法は依然として課題である。
現在の方法では、推定された深度マップ全体を無差別に扱い、単眼で固有の不正確さと横断的な不整合を無視しながら、地上の真理の監督として利用する。
これらの問題を解決するために,モノインスタンスを提案する。これはモノクラー深度の不確実性を探究し,ニューラルレンダリングと再構成のための幾何的事前情報を提供する。
我々の重要な洞察は、共通の3次元空間内の複数のビューから各セグメント化されたインスタンス深度を整列させることであり、それによって単分子深度の不確かさをノイズのある点雲内の密度測定に導くことである。
奥行き先が信頼できないような不確実な領域に対しては、近辺のビューにおいて、投影されたインスタンスが対応するインスタンスマスクと整合するように促す制約項も導入する。
MonoInstanceは多様なマルチビューニューラルレンダリングフレームワークにシームレスに統合できる汎用的な戦略である。
実験の結果,MonoInstanceは様々なベンチマークで再現性と新規ビュー合成の性能を著しく向上させることがわかった。
関連論文リスト
- Fine-detailed Neural Indoor Scene Reconstruction using multi-level importance sampling and multi-view consistency [1.912429179274357]
そこで本研究では,FD-NeuSと呼ばれるニューラルな暗黙表面再構成手法を提案する。
具体的には,領域に基づくレイサンプリングの導出にセグメンテーションの先行を生かし,重み付けとして指数関数を用いて3次元点サンプリングを行う。
さらに,多視点特徴整合と多視点正規整合をそれぞれ監督と不確実性として導入し,詳細の再構築をさらに改善する。
論文 参考訳(メタデータ) (2024-10-10T04:08:06Z) - GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:13:10Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - FusionDepth: Complement Self-Supervised Monocular Depth Estimation with
Cost Volume [9.912304015239313]
複数フレームの逐次制約により単眼深度を連続的に改善できる多眼深度推定フレームワークを提案する。
また,本手法は,単分子推定と多視点コストボリュームを組み合わせる際の解釈可能性も向上する。
論文 参考訳(メタデータ) (2023-05-10T10:38:38Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface
Reconstruction [72.05649682685197]
最先端のニューラル暗黙法は、多くの入力ビューから単純なシーンの高品質な再構築を可能にする。
これは主に、十分な制約を提供していないRGB再構築損失の固有の曖昧さによって引き起こされる。
近年の単分子形状予測の分野での進歩に触発され, ニューラルな暗黙的表面再構成の改善にこれらの方法が役立つかを探究する。
論文 参考訳(メタデータ) (2022-06-01T17:58:15Z) - Self-Supervised Visibility Learning for Novel View Synthesis [79.53158728483375]
従来のレンダリング方法はシーン形状を推定し、2つの別々のステップで新しいビューを合成します。
エラー伝搬問題を排除するために,エンドツーエンドのNVSフレームワークを提案する。
当社のネットワークはエンドツーエンドのセルフ監視方式でトレーニングされており、ビュー合成におけるエラーの蓄積を大幅に軽減します。
論文 参考訳(メタデータ) (2021-03-29T08:11:25Z) - Monocular Depth Estimation with Self-supervised Instance Adaptation [138.0231868286184]
ロボット工学の応用では、ロボットの動作に応じて、シーンの複数のビューが利用可能であるかもしれないし、利用できないかもしれない。
本稿では,市販の自己監督型単分子深度再構成システムをテスト時に複数の画像に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T08:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。