論文の概要: EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting
Ego-Motion Rigidity
- arxiv url: http://arxiv.org/abs/2309.01296v1
- Date: Mon, 4 Sep 2023 00:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:24:25.206386
- Title: EMR-MSF: Self-Supervised Recurrent Monocular Scene Flow Exploiting
Ego-Motion Rigidity
- Title(参考訳): EMR-MSF:Ego-Motion Rigidityを爆発する単眼循環流
- Authors: Zijie Jiang, Masatoshi Okutomi
- Abstract要約: 自己監督型単分子シーンフロー推定は、単純で経済的なセンサーの設置に注目が集まっている。
本稿では,教師あり学習の範囲内でのネットワークアーキテクチャ設計の利点を活かして,EMR-MSFという優れたモデルを提案する。
KITTIのシーンフローベンチマークでは,最先端の自己監督単分子法のSF-all測定値が44%向上した。
- 参考スコア(独自算出の注目度): 13.02735046166494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular scene flow estimation, aiming to understand both 3D
structures and 3D motions from two temporally consecutive monocular images, has
received increasing attention for its simple and economical sensor setup.
However, the accuracy of current methods suffers from the bottleneck of
less-efficient network architecture and lack of motion rigidity for
regularization. In this paper, we propose a superior model named EMR-MSF by
borrowing the advantages of network architecture design under the scope of
supervised learning. We further impose explicit and robust geometric
constraints with an elaborately constructed ego-motion aggregation module where
a rigidity soft mask is proposed to filter out dynamic regions for stable
ego-motion estimation using static regions. Moreover, we propose a motion
consistency loss along with a mask regularization loss to fully exploit static
regions. Several efficient training strategies are integrated including a
gradient detachment technique and an enhanced view synthesis process for better
performance. Our proposed method outperforms the previous self-supervised works
by a large margin and catches up to the performance of supervised methods. On
the KITTI scene flow benchmark, our approach improves the SF-all metric of the
state-of-the-art self-supervised monocular method by 44% and demonstrates
superior performance across sub-tasks including depth and visual odometry,
amongst other self-supervised single-task or multi-task methods.
- Abstract(参考訳): 2つの時間的連続した単眼画像から3次元構造と3次元運動の両方を理解することを目的とした自己監督型単眼シーンフロー推定は、そのシンプルで経済的なセンサー構成に注目が集まっている。
しかし、現在の手法の精度は、より効率的なネットワークアーキテクチャのボトルネックと正規化のための運動剛性の欠如に悩まされている。
本稿では,教師あり学習の範囲内でのネットワークアーキテクチャ設計の利点を活かして,EMR-MSFという優れたモデルを提案する。
さらに,厳密に構築されたエゴモーションアグリゲーションモジュールを用いて,静的領域を用いた安定なエゴモーション推定のための動的領域をフィルタリングする剛性ソフトマスクを提案することで,明示的かつ堅牢な幾何的制約を課す。
さらに,静的領域を完全に活用するためのマスク正規化損失とともに,動きの整合性損失を提案する。
グラデーション分離技術や改良されたビュー合成プロセスなど、より効率的なトレーニング戦略が統合され、パフォーマンスが向上している。
提案手法は,従来の自己監督作業よりも大きなマージンで性能を向上し,教師付き手法の性能に追いつく。
kitti scene flowベンチマークでは,最先端の自己教師付き単眼法のsf-allメトリックを44%改善し,奥行きや視覚のオドメトリーなどのサブタスクに対して,他の自己教師付きシングルタスクやマルチタスクメソッドよりも優れたパフォーマンスを示す。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - FG-Depth: Flow-Guided Unsupervised Monocular Depth Estimation [17.572459787107427]
そこで本研究では,典型的な測光損失を代替する流量蒸留損失と,不適切な画素を除去するための前向きフローベースマスクを提案する。
提案手法は,KITTIとNYU-Depth-v2の両方のデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-01-20T04:02:13Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Layer-wise Shared Attention Network on Dynamical System Perspective [69.45492795788167]
本稿では,複数のネットワーク層にまたがって単一の注目モジュールを共有するDIAユニットという,新規かつ簡易なフレームワークを提案する。
当社のフレームワークでは,パラメータコストはレイヤ数とは無関係であり,既存の自己注意モジュールの精度をさらに向上する。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - MotionHint: Self-Supervised Monocular Visual Odometry with Motion
Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。
我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文 参考訳(メタデータ) (2021-09-14T15:35:08Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Unsupervised Motion Representation Enhanced Network for Action
Recognition [4.42249337449125]
連続するフレーム間の動きの表現は、ビデオの理解を大いに促進することが証明されている。
効果的な光フロー解決器であるTV-L1法は、抽出した光フローをキャッシュするために時間と費用がかかる。
UF-TSN(UF-TSN)は、軽量な非監視光フロー推定器を組み込んだ、エンドツーエンドのアクション認識手法です。
論文 参考訳(メタデータ) (2021-03-05T04:14:32Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。