論文の概要: Unsupervised Joint Learning of Depth, Optical Flow, Ego-motion from
Video
- arxiv url: http://arxiv.org/abs/2105.14520v1
- Date: Sun, 30 May 2021 12:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:12:31.572601
- Title: Unsupervised Joint Learning of Depth, Optical Flow, Ego-motion from
Video
- Title(参考訳): ビデオからの深度, 光学的流れ, エゴモーションの教師なし共同学習
- Authors: Jianfeng Li, Junqiao Zhao, Shuangfu Song, Tiantian Feng
- Abstract要約: 深度、カメラの動き、画像からの光学的流れなどの幾何学的要素を推定することは、ロボットの視覚的知覚の重要な部分である。
我々は3つの幾何学的要素を推定するために,共同自己教師手法を用いる。
- 参考スコア(独自算出の注目度): 9.94001125780824
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Estimating geometric elements such as depth, camera motion, and optical flow
from images is an important part of the robot's visual perception. We use a
joint self-supervised method to estimate the three geometric elements. Depth
network, optical flow network and camera motion network are independent of each
other but are jointly optimized during training phase. Compared with
independent training, joint training can make full use of the geometric
relationship between geometric elements and provide dynamic and static
information of the scene. In this paper, we improve the joint self-supervision
method from three aspects: network structure, dynamic object segmentation, and
geometric constraints. In terms of network structure, we apply the attention
mechanism to the camera motion network, which helps to take advantage of the
similarity of camera movement between frames. And according to attention
mechanism in Transformer, we propose a plug-and-play convolutional attention
module. In terms of dynamic object, according to the different influences of
dynamic objects in the optical flow self-supervised framework and the
depth-pose self-supervised framework, we propose a threshold algorithm to
detect dynamic regions, and mask that in the loss function respectively. In
terms of geometric constraints, we use traditional methods to estimate the
fundamental matrix from the corresponding points to constrain the camera motion
network. We demonstrate the effectiveness of our method on the KITTI dataset.
Compared with other joint self-supervised methods, our method achieves
state-of-the-art performance in the estimation of pose and optical flow, and
the depth estimation has also achieved competitive results. Code will be
available https://github.com/jianfenglihg/Unsupervised_geometry.
- Abstract(参考訳): 画像から深度、カメラの動き、光の流れなどの幾何学的要素を推定することは、ロボットの視覚知覚の重要な部分である。
3つの幾何学的要素を推定するために,共同自己教師手法を用いる。
深度ネットワーク、光フローネットワーク、カメラモーションネットワークは互いに独立しているが、トレーニング段階では共同最適化されている。
独立トレーニングと比較して、関節トレーニングは幾何学的要素間の幾何学的関係をフル活用し、シーンの動的および静的情報を提供する。
本稿では,ネットワーク構造,動的オブジェクトセグメンテーション,幾何学的制約という3つの側面から,ジョイント・セルフスーパービジョン法を改善する。
ネットワーク構造の観点からは,注意機構をカメラ動作ネットワークに適用し,フレーム間のカメラ移動の類似性を活用する。
また,変圧器のアテンション機構により,プラグアンドプレイ畳み込みアテンションモジュールを提案する。
動的物体に関しては,光学フロー自己監督フレームワークと奥行き自己監督フレームワークにおける動的物体の影響の相違から,動的領域を検出するしきい値アルゴリズムを提案し,損失関数における物体をマスキングする。
幾何学的制約の観点からは、カメラ動作ネットワークを制約するために、対応する点から基本行列を推定するために従来の手法を用いる。
KITTIデータセットにおける本手法の有効性を示す。
提案手法は,他の関節型自己監督法と比較して,ポーズと光流の推定における最先端性能を実現し,深度推定も競争力のある結果を得た。
コードはhttps://github.com/jianfenglihg/unsupervised_geometryで利用できる。
関連論文リスト
- Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - USegScene: Unsupervised Learning of Depth, Optical Flow and Ego-Motion
with Semantic Guidance and Coupled Networks [31.600708674008384]
UegSceneは、ステレオカメラ画像の奥行き、光学的流れ、エゴモーション推定を意味的に導くためのフレームワークである。
一般的なKITTIデータセットを用いて,提案手法が他の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-07-15T13:25:47Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Self-Supervised Learning of Depth and Ego-Motion from Video by
Alternative Training and Geometric Constraints from 3D to 2D [5.481942307939029]
ラベルなし単眼ビデオからの深度とエゴモーションの自己教師付き学習は有望な結果を得た。
本稿では,補助的なタスクを伴わずに深層学習性能を向上させることを目的とする。
我々は、トレーニング中により小さな深さ値に重点を置くために、ログスケールの3次元構造整合性損失を設計する。
論文 参考訳(メタデータ) (2021-08-04T11:40:53Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - 3D Scene Geometry-Aware Constraint for Camera Localization with Deep
Learning [11.599633757222406]
近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。
本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。
これらの従来の手法から着想を得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
論文 参考訳(メタデータ) (2020-05-13T04:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。