論文の概要: MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments
from a Single Moving Camera
- arxiv url: http://arxiv.org/abs/2011.11814v3
- Date: Thu, 6 May 2021 09:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:20:45.628928
- Title: MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments
from a Single Moving Camera
- Title(参考訳): MonoRec: 単一移動カメラによる動的環境における半スーパービジョンDense再構成
- Authors: Felix Wimbauer, Nan Yang, Lukas von Stumberg, Niclas Zeller, Daniel
Cremers
- Abstract要約: MonoRecは、動的環境における単一の移動カメラから深度マップを予測する半教師付き再構築アーキテクチャである。
我々はMonoRecがマルチビューとシングルビューの両方と比較して最先端のパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 52.41549759529667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose MonoRec, a semi-supervised monocular dense
reconstruction architecture that predicts depth maps from a single moving
camera in dynamic environments. MonoRec is based on a multi-view stereo setting
which encodes the information of multiple consecutive images in a cost volume.
To deal with dynamic objects in the scene, we introduce a MaskModule that
predicts moving object masks by leveraging the photometric inconsistencies
encoded in the cost volumes. Unlike other multi-view stereo methods, MonoRec is
able to reconstruct both static and moving objects by leveraging the predicted
masks. Furthermore, we present a novel multi-stage training scheme with a
semi-supervised loss formulation that does not require LiDAR depth values. We
carefully evaluate MonoRec on the KITTI dataset and show that it achieves
state-of-the-art performance compared to both multi-view and single-view
methods. With the model trained on KITTI, we further demonstrate that MonoRec
is able to generalize well to both the Oxford RobotCar dataset and the more
challenging TUM-Mono dataset recorded by a handheld camera. Code and related
materials will be available at https://vision.in.tum.de/research/monorec.
- Abstract(参考訳): 本稿では,動的環境下での単一移動カメラからの深度マップを予測する半教師付き単分子密度再構成アーキテクチャであるMonoRecを提案する。
MonoRecは、複数の連続するイメージの情報をコストボリュームでエンコードするマルチビューステレオ設定に基づいている。
現場の動的物体に対処するために,コストボリュームに符号化された光度不整合を利用して移動物体マスクを予測するMaskModuleを導入する。
他のマルチビューステレオメソッドとは異なり、MonoRecは予測されたマスクを利用して静的オブジェクトと移動オブジェクトの両方を再構築することができる。
さらに,LiDAR深度値を必要としない半教師付き損失定式化による新しい多段階学習手法を提案する。
我々は、KITTIデータセット上でMonoRecを慎重に評価し、マルチビューとシングルビューの両方と比較して最先端のパフォーマンスを実現することを示す。
KITTIでトレーニングされたモデルにより、MonoRecがOxford RobotCarデータセットと、ハンドヘルドカメラによって記録されるより困難なTUM-Monoデータセットの両方をうまく一般化できることをさらに実証する。
コードおよび関連資料はhttps://vision.in.tum.de/research/monorec.comで入手できる。
関連論文リスト
- Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation [11.611045114232187]
最近の方法では、既存のカメラビュー間でのみビュー合成が行われており、ガイダンスが不十分である。
フローベースビデオフレーム作成(VFI)により、より仮想的なカメラビューを合成しようと試みる。
多フレーム推論では、MaryDepthのような明示的な幾何ベースのメソッドで発生する動的オブジェクトの問題を横取りするために、機能融合パラダイムに戻ります。
シングルフレームとマルチフレームの奥行きを双方向に接続するために,Mono-ViFIという自己教師型学習フレームワークを構築した。
論文 参考訳(メタデータ) (2024-07-19T08:51:51Z) - MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - Replay: Multi-modal Multi-view Acted Videos for Casual Holography [76.49914880351167]
Replayは、社会的に対話する人間のマルチビュー、マルチモーダルビデオのコレクションである。
全体として、データセットには4000分以上の映像と700万のタイムスタンプ付き高解像度フレームが含まれている。
Replayデータセットには、新規ビュー合成、3D再構成、新規ビュー音響合成、人体と顔の分析、生成モデルの訓練など、多くの潜在的な応用がある。
論文 参考訳(メタデータ) (2023-07-22T12:24:07Z) - Monocular Dynamic View Synthesis: A Reality Check [45.438135525140154]
本稿では,実測処理と既存の実験プロトコルの相違点を示す。
我々は、入力キャプチャーシーケンスに存在するマルチビュー信号の量を定量化するために、効果的なマルチビュー因子(EMF)を定義する。
また,より多様な実生活の変形シーケンスを含む新しいiPhoneデータセットを提案する。
論文 参考訳(メタデータ) (2022-10-24T17:58:28Z) - MonoNeRF: Learning Generalizable NeRFs from Monocular Videos without
Camera Pose [29.601253968190306]
本稿では,静的なシーンを移動する大規模モノクラービデオに基づいてトレーニング可能な,一般化可能なニューラルラジアンス場(MonoNeRF)を提案する。
MonoNeRFはAutoencoderベースのアーキテクチャに従っており、エンコーダはモノクロ深度とカメラのポーズを推定する。
深度推定、カメラポーズ推定、単一画像の新規ビュー合成など、複数のアプリケーションに適用することができる。
論文 参考訳(メタデータ) (2022-10-13T17:03:22Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - Learning multiplane images from single views with self-supervision [1.0499611180329804]
CycleMPIは、自己スーパービジョンのための循環訓練戦略を通じて、単一の画像から多面体画像表現を学習することができる。
我々のフレームワークは、トレーニングのためにステレオデータを必要としないので、インターネットから大量のビジュアルデータをトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-18T15:03:08Z) - TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and
Reconstruction [57.1209039399599]
我々は,シーン全体とその中のすべてのオブジェクトに対して,単一のボリュームを維持できるマップ表現を提案する。
複数の動的オブジェクト追跡および再構成シナリオにおいて,本表現は,近接して移動する他のオブジェクトによって一時的にオクルードされても,表面の正確な再構成を維持できる。
提案したTSDF++の定式化を公開合成データセット上で評価し,標準のTSDFマップ表現と比較した場合の閉塞面の復元性を示す。
論文 参考訳(メタデータ) (2021-05-16T16:15:05Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。