論文の概要: USegScene: Unsupervised Learning of Depth, Optical Flow and Ego-Motion
with Semantic Guidance and Coupled Networks
- arxiv url: http://arxiv.org/abs/2207.07469v1
- Date: Fri, 15 Jul 2022 13:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-07-18 17:58:02.970826
- Title: USegScene: Unsupervised Learning of Depth, Optical Flow and Ego-Motion
with Semantic Guidance and Coupled Networks
- Title(参考訳): USegScene: セマンティックガイダンスと結合ネットワークによる奥行き・光フロー・エゴ運動の教師なし学習
- Authors: Johan Vertens, Wolfram Burgard
- Abstract要約: UegSceneは、ステレオカメラ画像の奥行き、光学的流れ、エゴモーション推定を意味的に導くためのフレームワークである。
一般的なKITTIデータセットを用いて,提案手法が他の手法よりも大きなマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 31.600708674008384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose USegScene, a framework for semantically guided
unsupervised learning of depth, optical flow and ego-motion estimation for
stereo camera images using convolutional neural networks. Our framework
leverages semantic information for improved regularization of depth and optical
flow maps, multimodal fusion and occlusion filling considering dynamic rigid
object motions as independent SE(3) transformations. Furthermore, complementary
to pure photo-metric matching, we propose matching of semantic features,
pixel-wise classes and object instance borders between the consecutive images.
In contrast to previous methods, we propose a network architecture that jointly
predicts all outputs using shared encoders and allows passing information
across the task-domains, e.g., the prediction of optical flow can benefit from
the prediction of the depth. Furthermore, we explicitly learn the depth and
optical flow occlusion maps inside the network, which are leveraged in order to
improve the predictions in therespective regions. We present results on the
popular KITTI dataset and show that our approach outperforms other methods by a
large margin.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワークを用いたステレオカメラ画像の奥行き,光学的流れ,エゴモーション推定を意味的に指導するフレームワークであるUSegSceneを提案する。
本フレームワークは, 動的剛体運動を独立SE(3)変換として考慮し, 深度と光学フローマップの正規化, マルチモーダル融合, 閉塞充填の改善に意味情報を活用する。
さらに、純光度マッチングと相補的に、連続画像間のセマンティック特徴、画素ワイドクラス、オブジェクトインスタンス境界のマッチングを提案する。
従来の手法とは対照的に,共有エンコーダを用いた全出力を共同で予測し,タスク領域間の情報伝達を可能にするネットワークアーキテクチャを提案する。
さらに,ネットワーク内における深度と光学的流れの排除マップを明示的に学習し,その領域の予測を改善するために活用する。
一般的なKITTIデータセットを用いて,提案手法が他の手法よりも優れていることを示す。
関連論文リスト
- De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - Content-aware Warping for View Synthesis [110.54435867693203]
本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-01-22T11:35:05Z) - Unsupervised Joint Learning of Depth, Optical Flow, Ego-motion from
Video [9.94001125780824]
深度、カメラの動き、画像からの光学的流れなどの幾何学的要素を推定することは、ロボットの視覚的知覚の重要な部分である。
我々は3つの幾何学的要素を推定するために,共同自己教師手法を用いる。
論文 参考訳(メタデータ) (2021-05-30T12:39:48Z) - Self-Guided Instance-Aware Network for Depth Completion and Enhancement [6.319531161477912]
既存の手法では,画素ワイド画像の内容とそれに対応する近傍の深度値に基づいて,欠落した深度測定を直接補間する。
本稿では、自己誘導機構を利用して、深度復元に必要なインスタンスレベルの特徴を抽出する自己誘導型インスタンス認識ネットワーク(SG-IANet)を提案する。
論文 参考訳(メタデータ) (2021-05-25T19:41:38Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - SSGP: Sparse Spatial Guided Propagation for Robust and Generic
Interpolation [15.71870284091698]
密度の高い目標解像度へのスパース画素情報の補間は、コンピュータビジョンにおける複数の分野にまたがる応用を見出す。
我々の研究は、疎密な情報に対する厳密なガイダンスの問題に対処する、最新のディープ・コンプリート(deep completion)の傾向にインスパイアされている。
我々は、光学フロー、シーンフロー、深さ補完といった様々な問題に適用可能な、汎用的なクロスドメインアーキテクチャを作成します。
論文 参考訳(メタデータ) (2020-08-21T07:39:41Z) - Semantics-Driven Unsupervised Learning for Monocular Depth and
Ego-Motion Estimation [33.83396613039467]
ビデオからの単眼深度と自我運動推定のためのセマンティクス駆動型教師なし学習手法を提案する。
近年の教師なし学習法では, 合成ビューと実画像の光度誤差を指導信号として用いている。
論文 参考訳(メタデータ) (2020-06-08T05:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。