論文の概要: Self-supervised Learning of Occlusion Aware Flow Guided 3D Geometry
Perception with Adaptive Cross Weighted Loss from Monocular Videos
- arxiv url: http://arxiv.org/abs/2108.03893v2
- Date: Tue, 10 Aug 2021 05:02:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 11:23:21.747118
- Title: Self-supervised Learning of Occlusion Aware Flow Guided 3D Geometry
Perception with Adaptive Cross Weighted Loss from Monocular Videos
- Title(参考訳): 単眼映像からの適応クロス重み付き損失を考慮した咬合認識3次元形状知覚の自己教師あり学習
- Authors: Jiaojiao Fang, Guizhong Liu
- Abstract要約: 自己教師型深層学習に基づく3次元シーン理解手法は,高密度にラベル付けされた地下構造を取得することの難しさを克服することができる。
本稿では,学習可能なオクルージョン認識型光学流ガイドによる自己監督深度とカメラポーズ推定について検討する。
提案手法は,KITTI,Make3D,Cityscapesの各データセットに対して,複数のタスクで有望な結果を示す。
- 参考スコア(独自算出の注目度): 5.481942307939029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised deep learning-based 3D scene understanding methods can
overcome the difficulty of acquiring the densely labeled ground-truth and have
made a lot of advances. However, occlusions and moving objects are still some
of the major limitations. In this paper, we explore the learnable occlusion
aware optical flow guided self-supervised depth and camera pose estimation by
an adaptive cross weighted loss to address the above limitations. Firstly, we
explore to train the learnable occlusion mask fused optical flow network by an
occlusion-aware photometric loss with the temporally supplemental information
and backward-forward consistency of adjacent views. And then, we design an
adaptive cross-weighted loss between the depth-pose and optical flow loss of
the geometric and photometric error to distinguish the moving objects which
violate the static scene assumption. Our method shows promising results on
KITTI, Make3D, and Cityscapes datasets under multiple tasks. We also show good
generalization ability under a variety of challenging scenarios.
- Abstract(参考訳): 自己教師付き深層学習に基づく3dシーン理解手法は,密接なラベル付き地層獲得の難しさを克服し,多くの進歩を遂げている。
しかし、オクルージョンや動くオブジェクトは依然として大きな制限の1つだ。
本稿では,学習可能なオクルージョン認識型自己監督深度とカメラポーズ推定を適応的クロス重み付き損失により検討し,上記の制限に対処する。
まず, 学習可能なオクルージョンマスクを融合した光フローネットワークを, 時間的補足情報を伴うオクルージョンアウェアフォトメトリックロスと隣接ビューの後方方向一貫性により訓練する。
そして、静止シーンの仮定に反する移動物体を識別するために、幾何学的および測光的誤差の深さ位置と光学的フロー損失の間の適応的相互重み付き損失を設計する。
提案手法は,kitti,make3d,cityscapesデータセットの複数のタスクにおける有望な結果を示す。
また,様々な課題シナリオにおいて,優れた一般化能力を示す。
関連論文リスト
- AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation [51.143540967290114]
本研究では,教師なし深度計算と推定のために,従来不可能であった幾何拡張の幅広い範囲をアンロックする手法を提案する。
これは、出力深さの座標への幾何変換を反転、あるいはアンドウイング(undo''-ing)し、深度マップを元の参照フレームに戻すことで達成される。
論文 参考訳(メタデータ) (2023-10-15T05:15:45Z) - 3D shape reconstruction of semi-transparent worms [0.950214811819847]
3D形状の再構成は通常、被写体の複数の画像に物体の特徴やテクスチャを特定する必要がある。
ここでは、画像と比較するために、適応的ぼかしと透明度で候補形状を描画することで、これらの課題を克服する。
本研究は,線虫類の細いカエノルハブディティ・エレガンスを,生物学的にインフォームドされた制約や規則化を自然に許容する内在的パラメトリションを用いて3次元曲線としてモデル化する。
論文 参考訳(メタデータ) (2023-04-28T13:29:36Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Towards Non-Line-of-Sight Photography [48.491977359971855]
非視線イメージング(NLOS)は、隠された物体からの多重バウンス間接反射を捉えることに基づいている。
アクティブなNLOSイメージングシステムは、シーンを通しての光の飛行時間の捕捉に依存している。
我々はNLOS写真と呼ばれる新しい問題定式化を提案し、この欠陥に特に対処する。
論文 参考訳(メタデータ) (2021-09-16T08:07:13Z) - Unsupervised Monocular Depth Perception: Focusing on Moving Objects [5.489557739480878]
本稿では,光度誤差を意図的に操作することで,効率よく困難に対処できることを示す。
まず、光学誤差マップにおいて、隠蔽または動的画素を統計的外れ値として考慮した外れ値マスキング手法を提案する。
外部マスキングにより、ネットワークはカメラと反対方向に移動する物体の深さをより正確に学習する。
論文 参考訳(メタデータ) (2021-08-30T08:45:02Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - SAFENet: Self-Supervised Monocular Depth Estimation with Semantic-Aware
Feature Extraction [27.750031877854717]
本稿では,セマンティック情報を活用して光度損失の限界を克服するSAFENetを提案する。
私たちのキーとなるアイデアは、意味的知識と幾何学的知識を統合するセマンティック・アウェア・ディープ機能を活用することです。
KITTIデータセットの実験では、我々の手法が最先端の手法と競合するか、さらに優れています。
論文 参考訳(メタデータ) (2020-10-06T17:22:25Z) - Learning to See Through Obstructions [117.77024641706451]
本稿では,移動カメラで撮影した短い画像列から不要な障害物を除去するための学習に基づくアプローチを提案する。
本手法は背景要素と障害物要素の運動差を利用して両方の層を復元する。
合成データ転送のトレーニングは実画像に対して良好であることを示す。
論文 参考訳(メタデータ) (2020-04-02T17:59:12Z) - DiPE: Deeper into Photometric Errors for Unsupervised Learning of Depth
and Ego-motion from Monocular Videos [9.255509741319583]
本稿では,光度誤差を慎重に操作することで,これらの問題に対処できることを示す。
主な改善は、測光誤差マップ内の見えないまたは静止しないピクセルを隠蔽する統計技術によって達成される。
また,予測深度マップのアーティファクトを削減するために,効率的な重み付きマルチスケールスキームを提案する。
論文 参考訳(メタデータ) (2020-03-03T07:05:15Z) - Unsupervised Learning of Depth, Optical Flow and Pose with Occlusion
from 3D Geometry [29.240108776329045]
本稿では,中間フレームの画素を剛性領域,非剛性領域,隠蔽領域の3つの部分にモデル化する。
奥行きとポーズの非教師による共同トレーニングでは、隠蔽領域を明示的に区分することができる。
閉鎖領域では、深度とカメラの動きがより信頼性の高い動き推定を提供するため、光学流の教師なし学習の指導に使用できる。
論文 参考訳(メタデータ) (2020-03-02T11:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。