論文の概要: Self-Supervised Multi-Frame Monocular Scene Flow
- arxiv url: http://arxiv.org/abs/2105.02216v1
- Date: Wed, 5 May 2021 17:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 12:52:02.374282
- Title: Self-Supervised Multi-Frame Monocular Scene Flow
- Title(参考訳): 自己監督型マルチフレーム単眼シーンフロー
- Authors: Junhwa Hur, Stefan Roth
- Abstract要約: 自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
- 参考スコア(独自算出の注目度): 61.588808225321735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D scene flow from a sequence of monocular images has been gaining
increased attention due to the simple, economical capture setup. Owing to the
severe ill-posedness of the problem, the accuracy of current methods has been
limited, especially that of efficient, real-time approaches. In this paper, we
introduce a multi-frame monocular scene flow network based on self-supervised
learning, improving the accuracy over previous networks while retaining
real-time efficiency. Based on an advanced two-frame baseline with a
split-decoder design, we propose (i) a multi-frame model using a triple frame
input and convolutional LSTM connections, (ii) an occlusion-aware census loss
for better accuracy, and (iii) a gradient detaching strategy to improve
training stability. On the KITTI dataset, we observe state-of-the-art accuracy
among monocular scene flow methods based on self-supervised learning.
- Abstract(参考訳): 単眼画像列からの3次元シーンフローの推定は,単純で経済的なキャプチャ設定により注目されている。
問題の深刻な不適切さのため、現在の手法の精度は、特に効率的なリアルタイムアプローチによって制限されている。
本稿では,実時間効率を維持しつつ,従来のネットワークよりも精度を向上し,自己教師付き学習に基づくマルチフレーム単眼シーンフローネットワークを提案する。
分割デコーダを設計した先進的な2フレームベースラインに基づいて, (i) トリプルフレーム入力と畳み込みLSTM接続を用いた多フレームモデル, (ii) より高精度なオクルージョン対応の国勢調査損失, (iii) トレーニング安定性を向上させるための勾配除去戦略を提案する。
KITTIデータセットでは,自己教師付き学習に基づく単眼シーンフロー手法の最先端の精度を観察する。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting
Ego-Motion Rigidity [13.02735046166494]
自己監督型単分子シーンフロー推定は、単純で経済的なセンサーの設置に注目が集まっている。
本稿では,教師あり学習の範囲内でのネットワークアーキテクチャ設計の利点を活かして,EMR-MSFという優れたモデルを提案する。
KITTIのシーンフローベンチマークでは,最先端の自己監督単分子法のSF-all測定値が44%向上した。
論文 参考訳(メタデータ) (2023-09-04T00:30:06Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - RAFT-MSF: Self-Supervised Monocular Scene Flow using Recurrent Optimizer [21.125470798719967]
本稿では,従来の手法に比べて精度が大幅に向上する自己教師付き単眼シーンフロー手法を提案する。
現状の光学フローモデルであるRAFTに基づいて、3次元運動場と不均一マップを同時に更新する新しいデコーダを設計する。
本手法は, 自己監督型単眼シーンフロー法における最先端の精度を実現し, 精度を34.2%向上させる。
論文 参考訳(メタデータ) (2022-05-03T15:43:57Z) - RAUM-VO: Rotational Adjusted Unsupervised Monocular Visual Odometry [0.0]
本稿では,フレーム間動き推定のためのモデルフリーなエピポーラ制約に基づくRAUM-VOを提案する。
RAUM-VOは、KITTIデータセット上の他の教師なしポーズネットワークと比較してかなり精度が向上している。
論文 参考訳(メタデータ) (2022-03-14T15:03:24Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation [87.74617110803189]
シーンフローとして知られるシーン内の点の3次元運動を推定することは、コンピュータビジョンにおける中核的な問題である。
本稿では,シーンフローの予測を洗練するための反復的アライメント手順の1ステップを学習する再帰的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-19T23:23:48Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z) - Self-Supervised Monocular Scene Flow Estimation [27.477810324117016]
本稿では,競争精度とリアルタイム性能を両立させる新しい単眼シーンフロー法を提案する。
逆問題の観点から、深度と3次元運動を同時に推定する単一畳み込みニューラルネットワーク(CNN)を設計する。
論文 参考訳(メタデータ) (2020-04-08T17:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。