論文の概要: MonoSelfRecon: Purely Self-Supervised Explicit Generalizable 3D Reconstruction of Indoor Scenes from Monocular RGB Views
- arxiv url: http://arxiv.org/abs/2404.06753v1
- Date: Wed, 10 Apr 2024 05:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 15:29:37.729959
- Title: MonoSelfRecon: Purely Self-Supervised Explicit Generalizable 3D Reconstruction of Indoor Scenes from Monocular RGB Views
- Title(参考訳): MonoSelfRecon: モノクロRGBビューによる室内シーンの3次元再構成
- Authors: Runfa Li, Upal Mahbub, Vasudev Bhaskaran, Truong Nguyen,
- Abstract要約: MonoSelfReconは、Voxel-SDFを純粋に自己スーパービジョンすることで、モノキュラーRGBビューを備えた一般化可能な屋内シーンの3Dメッシュ再構築を実現する。
我々は、純粋な自己監督を支援するだけでなく、教師付き信号とともに、教師付き訓練をさらに促進するために使用できる新しい自己監督的損失を提案する。
- 参考スコア(独自算出の注目度): 4.570455747723325
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current monocular 3D scene reconstruction (3DR) works are either fully-supervised, or not generalizable, or implicit in 3D representation. We propose a novel framework - MonoSelfRecon that for the first time achieves explicit 3D mesh reconstruction for generalizable indoor scenes with monocular RGB views by purely self-supervision on voxel-SDF (signed distance function). MonoSelfRecon follows an Autoencoder-based architecture, decodes voxel-SDF and a generalizable Neural Radiance Field (NeRF), which is used to guide voxel-SDF in self-supervision. We propose novel self-supervised losses, which not only support pure self-supervision, but can be used together with supervised signals to further boost supervised training. Our experiments show that "MonoSelfRecon" trained in pure self-supervision outperforms current best self-supervised indoor depth estimation models and is comparable to 3DR models trained in fully supervision with depth annotations. MonoSelfRecon is not restricted by specific model design, which can be used to any models with voxel-SDF for purely self-supervised manner.
- Abstract(参考訳): 現在のモノクロ3Dシーン再構成(3DR)の作品は、完全に監督されているか、一般化できないか、あるいは3D表現において暗黙的である。
本稿では,モノクセル-SDF(符号距離関数)を純粋に自己スーパービジョンすることで,モノクセルRGBビューの一般化可能な屋内シーンに対して,初めて明示的な3次元メッシュ再構成を実現する新しいフレームワークであるMonoSelfReconを提案する。
MonoSelfReconはAutoencoderベースのアーキテクチャに従い、Voxel-SDFとNeRF(Generalizable Neural Radiance Field)をデコードする。
我々は、純粋な自己監督を支援するだけでなく、教師付き信号とともに、教師付き訓練をさらに促進するために使用できる新しい自己監督的損失を提案する。
実験の結果,「MonoSelfRecon」は,従来の自己監督型室内深度推定モデルよりも優れており,深度アノテーションを用いた完全監督型3DRモデルと同等であることがわかった。
MonoSelfReconは、特定のモデル設計に制限されない。これは、純粋に自己管理された方法で、voxel-SDFを持つモデルで使用することができる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction [77.15924044466976]
本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
論文 参考訳(メタデータ) (2023-11-21T17:59:14Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - AutoRecon: Automated 3D Object Discovery and Reconstruction [41.60050228813979]
多視点画像からのオブジェクトの自動発見と再構築のための新しいフレームワークAutoReconを提案する。
本研究では,SfM点群からフォアグラウンド・オブジェクトの位置とセグメンテーションを,自己監督型2次元ビジョン・トランスフォーマーの機能を活用して行うことを実証する。
DTU、BlendedMVS、CO3D-V2データセットの実験はAutoReconの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-05-15T17:16:46Z) - Self-Supervised Object Goal Navigation with In-Situ Finetuning [110.6053241629366]
この研究は、探検を通じて世界の自己監督モデルを構築するエージェントを構築する。
ObjectNavエージェントのすべてのコンポーネントをトレーニングできる強力なセルフスーパービジョンのソースを特定します。
我々は,エージェントが実世界で競争力を発揮し,シミュレーションを行うことを示す。
論文 参考訳(メタデータ) (2022-12-09T03:41:40Z) - MonoViT: Self-Supervised Monocular Depth Estimation with a Vision
Transformer [52.0699787446221]
自己教師付き単眼深度推定の柔軟性とViTモデルにより実現された大域的推論の枠組みであるMonoViTを提案する。
平易な畳み込みとTransformerブロックを組み合わせることで、我々のモデルは局所的かつグローバルに推論し、より詳細な精度と精度で深度予測を行うことができる。
論文 参考訳(メタデータ) (2022-08-06T16:54:45Z) - Monocular Depth Estimation through Virtual-world Supervision and
Real-world SfM Self-Supervision [0.0]
仮想世界監視(MonoDEVS)と実世界SfM自己監督による単眼深度推定を行う。
われわれのMonoDEVSNetは、モノクレオシークエンスやステレオシークエンスで訓練された以前のMDE CNNよりも優れています。
論文 参考訳(メタデータ) (2021-03-22T22:33:49Z) - Monocular Depth Estimation with Self-supervised Instance Adaptation [138.0231868286184]
ロボット工学の応用では、ロボットの動作に応じて、シーンの複数のビューが利用可能であるかもしれないし、利用できないかもしれない。
本稿では,市販の自己監督型単分子深度再構成システムをテスト時に複数の画像に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T08:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。