論文の概要: Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes
- arxiv url: http://arxiv.org/abs/2105.02195v1
- Date: Wed, 5 May 2021 17:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:44:31.944090
- Title: Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes
- Title(参考訳): move slam: 非厳格なシーンで完全に教師なしのディープラーニング
- Authors: Dan Xu, Andrea Vedaldi, Joao F. Henriques
- Abstract要約: 従来のカメラ幾何学を用いて異なる視点からソースイメージを再レンダリングするビュー合成という考え方に基づいている。
映像中の合成画像と対応する実画像との誤差を最小化することにより、ポーズや深さを予測するディープネットワークを完全に教師なしで訓練することができる。
- 参考スコア(独自算出の注目度): 85.56602190773684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method to train deep networks to decompose videos into 3D
geometry (camera and depth), moving objects, and their motions, with no
supervision. We build on the idea of view synthesis, which uses classical
camera geometry to re-render a source image from a different point-of-view,
specified by a predicted relative pose and depth map. By minimizing the error
between the synthetic image and the corresponding real image in a video, the
deep network that predicts pose and depth can be trained completely
unsupervised. However, the view synthesis equations rely on a strong
assumption: that objects do not move. This rigid-world assumption limits the
predictive power, and rules out learning about objects automatically. We
propose a simple solution: minimize the error on small regions of the image
instead. While the scene as a whole may be non-rigid, it is always possible to
find small regions that are approximately rigid, such as inside a moving
object. Our network can then predict different poses for each region, in a
sliding window. This represents a significantly richer model, including 6D
object motions, with little additional complexity. We establish new
state-of-the-art results on unsupervised odometry and depth prediction on
KITTI. We also demonstrate new capabilities on EPIC-Kitchens, a challenging
dataset of indoor videos, where there is no ground truth information for depth,
odometry, object segmentation or motion. Yet all are recovered automatically by
our method.
- Abstract(参考訳): 本研究では,映像を3次元形状(カメラと奥行き)に分解する深層ネットワークを訓練する手法を提案する。
従来のカメラ形状を用いて異なる視点からソースイメージを再レンダリングするビュー合成のアイデアを,予測した相対的なポーズと深度マップを用いて構築する。
映像中の合成画像と対応する実画像との誤差を最小化することにより、ポーズや深さを予測するディープネットワークを完全に教師なしで訓練することができる。
しかし、ビュー合成方程式は、オブジェクトが動かないという強い仮定に依存している。
この厳密な世界仮説は予測力を制限し、自動的にオブジェクトの学習を除外する。
画像の小さな領域でエラーを最小限に抑えるという簡単な解決策を提案する。
全体は厳密でないかもしれないが、動く物体の内部など、ほぼ剛体な小さな領域を見つけることは常に可能である。
ネットワークはスライディングウィンドウ内で、各領域の異なるポーズを予測できます。
これは6Dオブジェクトの動きを含む、はるかにリッチなモデルであり、さらに複雑さがほとんどない。
我々は,KITTIにおける教師なし計測と深度予測に関する最新の結果を確立した。
また,屋内ビデオのデータセットであるEPIC-Kitchensには,深度,計測,物体のセグメンテーション,動きなどの根拠となる真実情報がない。
しかし、すべては我々の方法で自動的に回収される。
関連論文リスト
- Generative Omnimatte: Learning to Decompose Video into Layers [29.098471541412113]
本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。
提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。
提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文 参考訳(メタデータ) (2024-03-28T11:12:33Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes [68.38952377590499]
複雑な屋内環境の中を移動する単眼カメラから奥行きを推定するための新しい手法を提案する。
提案手法は,静的な背景と複数の移動する人物からなるシーン全体にわたる絶対規模の深度マップを推定する。
論文 参考訳(メタデータ) (2021-08-12T09:12:39Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。