論文の概要: Self-Supervised Multi-Frame Monocular Scene Flow
- arxiv url: http://arxiv.org/abs/2105.02216v1
- Date: Wed, 5 May 2021 17:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:52:02.374282
- Title: Self-Supervised Multi-Frame Monocular Scene Flow
- Title(参考訳): 自己監督型マルチフレーム単眼シーンフロー
- Authors: Junhwa Hur, Stefan Roth
- Abstract要約: 自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
- 参考スコア(独自算出の注目度): 61.588808225321735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D scene flow from a sequence of monocular images has been gaining
increased attention due to the simple, economical capture setup. Owing to the
severe ill-posedness of the problem, the accuracy of current methods has been
limited, especially that of efficient, real-time approaches. In this paper, we
introduce a multi-frame monocular scene flow network based on self-supervised
learning, improving the accuracy over previous networks while retaining
real-time efficiency. Based on an advanced two-frame baseline with a
split-decoder design, we propose (i) a multi-frame model using a triple frame
input and convolutional LSTM connections, (ii) an occlusion-aware census loss
for better accuracy, and (iii) a gradient detaching strategy to improve
training stability. On the KITTI dataset, we observe state-of-the-art accuracy
among monocular scene flow methods based on self-supervised learning.
- Abstract(参考訳): 単眼画像列からの3次元シーンフローの推定は,単純で経済的なキャプチャ設定により注目されている。
問題の深刻な不適切さのため、現在の手法の精度は、特に効率的なリアルタイムアプローチによって制限されている。
本稿では,実時間効率を維持しつつ,従来のネットワークよりも精度を向上し,自己教師付き学習に基づくマルチフレーム単眼シーンフローネットワークを提案する。
分割デコーダを設計した先進的な2フレームベースラインに基づいて, (i) トリプルフレーム入力と畳み込みLSTM接続を用いた多フレームモデル, (ii) より高精度なオクルージョン対応の国勢調査損失, (iii) トレーニング安定性を向上させるための勾配除去戦略を提案する。
KITTIデータセットでは,自己教師付き学習に基づく単眼シーンフロー手法の最先端の精度を観察する。
関連論文リスト
- EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting
Ego-Motion Rigidity [13.02735046166494]
自己監督型単分子シーンフロー推定は、単純で経済的なセンサーの設置に注目が集まっている。
本稿では,教師あり学習の範囲内でのネットワークアーキテクチャ設計の利点を活かして,EMR-MSFという優れたモデルを提案する。
KITTIのシーンフローベンチマークでは,最先端の自己監督単分子法のSF-all測定値が44%向上した。
論文 参考訳(メタデータ) (2023-09-04T00:30:06Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [46.616353703127466]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健なトラッキングのためのマルチフレーム機能の利用性を高めるために、コントラストシーケンス強化戦略を設計する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - RAFT-MSF: Self-Supervised Monocular Scene Flow using Recurrent Optimizer [21.125470798719967]
本稿では,従来の手法に比べて精度が大幅に向上する自己教師付き単眼シーンフロー手法を提案する。
現状の光学フローモデルであるRAFTに基づいて、3次元運動場と不均一マップを同時に更新する新しいデコーダを設計する。
本手法は, 自己監督型単眼シーンフロー法における最先端の精度を実現し, 精度を34.2%向上させる。
論文 参考訳(メタデータ) (2022-05-03T15:43:57Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation [87.74617110803189]
シーンフローとして知られるシーン内の点の3次元運動を推定することは、コンピュータビジョンにおける中核的な問題である。
本稿では,シーンフローの予測を洗練するための反復的アライメント手順の1ステップを学習する再帰的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-19T23:23:48Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z) - Self-Supervised Monocular Scene Flow Estimation [27.477810324117016]
本稿では,競争精度とリアルタイム性能を両立させる新しい単眼シーンフロー法を提案する。
逆問題の観点から、深度と3次元運動を同時に推定する単一畳み込みニューラルネットワーク(CNN)を設計する。
論文 参考訳(メタデータ) (2020-04-08T17:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。