論文の概要: Unsupervised Learning of Monocular Depth and Ego-Motion Using Multiple
Masks
- arxiv url: http://arxiv.org/abs/2104.00431v1
- Date: Thu, 1 Apr 2021 12:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:26:23.360291
- Title: Unsupervised Learning of Monocular Depth and Ego-Motion Using Multiple
Masks
- Title(参考訳): マルチマスクによる単眼深度・自我運動の教師なし学習
- Authors: Guangming Wang, Hesheng Wang, Yiling Liu and Weidong Chen
- Abstract要約: 本稿では,モノクロ映像からの複数のマスクを用いた深度・エゴモーションの教師なし学習手法を提案する。
深度推定ネットワークとエゴモーション推定ネットワークは、真理値のない深度とエゴモーションの制約に応じて訓練される。
KITTIデータセットの実験は、深度と自我運動の点で良好なパフォーマンスを達成していることを示す。
- 参考スコア(独自算出の注目度): 14.82498499423046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A new unsupervised learning method of depth and ego-motion using multiple
masks from monocular video is proposed in this paper. The depth estimation
network and the ego-motion estimation network are trained according to the
constraints of depth and ego-motion without truth values. The main contribution
of our method is to carefully consider the occlusion of the pixels generated
when the adjacent frames are projected to each other, and the blank problem
generated in the projection target imaging plane. Two fine masks are designed
to solve most of the image pixel mismatch caused by the movement of the camera.
In addition, some relatively rare circumstances are considered, and repeated
masking is proposed. To some extent, the method is to use a geometric
relationship to filter the mismatched pixels for training, making unsupervised
learning more efficient and accurate. The experiments on KITTI dataset show our
method achieves good performance in terms of depth and ego-motion. The
generalization capability of our method is demonstrated by training on the
low-quality uncalibrated bike video dataset and evaluating on KITTI dataset,
and the results are still good.
- Abstract(参考訳): 本稿では,モノクロ映像からの複数のマスクを用いた深度・エゴモーションの教師なし学習手法を提案する。
深度推定ネットワークとエゴモーション推定ネットワークは、真理値のない深度とエゴモーションの制約に応じて訓練される。
本手法の主な貢献は、隣接するフレームが互いに投影された際に発生する画素の閉塞と、投影対象撮像面で発生する空白問題を慎重に検討することである。
2つの優れたマスクは、カメラの動きによる画像画素ミスマッチのほとんどを解決するように設計されている。
また,比較的稀な状況が考慮され,繰り返しマスキングが提案されている。
ある程度は、幾何学的関係を利用して、ミスマッチした画素をフィルタリングし、教師なし学習をより効率的かつ正確にする。
KITTIデータセットを用いた実験により,提案手法は深度とエゴモーションの点で優れた性能を示す。
提案手法の一般化能力は,低品質の自転車ビデオデータセットのトレーニングと,KITTIデータセットの評価によって実証され,その結果は依然として良好である。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Learning depth from monocular video sequences [0.0]
トレーニングプロセス中に、より多くのイメージをインクルードできる新たなトレーニング損失を提案する。
単一画像推定のための新しいネットワークアーキテクチャも設計する。
論文 参考訳(メタデータ) (2023-10-26T05:00:41Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Layered Depth Refinement with Mask Guidance [61.10654666344419]
汎用マスクを用いてSIDEモデルの深度予測を洗練させるマスク誘導深度改善の新しい問題を定式化する。
本フレームワークは,奥行きマップをマスクと逆マスクで表される2つの別々の層に分解し,層状改質・塗装・塗装を行う。
本手法は,内面境界領域と外面境界領域の深度を正確に補正し,異なる種類のマスクや初期深度予測に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2022-06-07T06:42:44Z) - Unsupervised Monocular Depth Perception: Focusing on Moving Objects [5.489557739480878]
本稿では,光度誤差を意図的に操作することで,効率よく困難に対処できることを示す。
まず、光学誤差マップにおいて、隠蔽または動的画素を統計的外れ値として考慮した外れ値マスキング手法を提案する。
外部マスキングにより、ネットワークはカメラと反対方向に移動する物体の深さをより正確に学習する。
論文 参考訳(メタデータ) (2021-08-30T08:45:02Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z) - DiPE: Deeper into Photometric Errors for Unsupervised Learning of Depth
and Ego-motion from Monocular Videos [9.255509741319583]
本稿では,光度誤差を慎重に操作することで,これらの問題に対処できることを示す。
主な改善は、測光誤差マップ内の見えないまたは静止しないピクセルを隠蔽する統計技術によって達成される。
また,予測深度マップのアーティファクトを削減するために,効率的な重み付きマルチスケールスキームを提案する。
論文 参考訳(メタデータ) (2020-03-03T07:05:15Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。