論文の概要: ScaleRAFT: Cross-Scale Recurrent All-Pairs Field Transforms for 3D Motion Estimation
- arxiv url: http://arxiv.org/abs/2407.09797v1
- Date: Sat, 13 Jul 2024 07:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:47:21.511827
- Title: ScaleRAFT: Cross-Scale Recurrent All-Pairs Field Transforms for 3D Motion Estimation
- Title(参考訳): ScaleRAFT:3次元運動推定のためのクロススケールリカレント全ペア場変換
- Authors: Han Ling, Quansen Sun,
- Abstract要約: 本稿では,クロススケールマッチングに基づく正規化シーンフローフレームワークScaleRAFTを提案する。
本手法は,運転シナリオにおける動作推定タスクにおいて,これまでで最高の前景性能を達成している。
- 参考スコア(独自算出の注目度): 15.629496237910999
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we study the problem of estimating the 3D motion of dense pixels from continuous image pairs. Most previous methods are based on mature optical flow baselines and depth values, projecting the 2D motion on pixel planes into 3D space, and further optimizing the results by combining depth-motion-branch and other sub-modules. This stacked framework cannot leverage the complementarity between optical flow and other modules nor escape the dependence on accurate depth information. To address the above challenges, we propose a normalized scene flow framework, ScaleRAFT, based on cross-scale matching. Its core feature is directly matching objects between two frames in 3D scale space, i.e. matching features at the correct location and scale. Unlike previous methods, ScaleRAFT integrates optical flow and deep motion estimation into a unified architecture, allowing the optical flow pipeline and deep motion estimation to promote each other mutually. Moreover, ScaleRAFT estimates motion in the depth direction based on feature matching, breaking away from the dependence on accurate depth information. Experimentally, our method has achieved the best foreground performance so far in motion estimation tasks in driving scenarios, and has significantly improved various downstream 3D tasks.
- Abstract(参考訳): 本稿では,連続画像対から高密度画素の3次元運動を推定する問題について検討する。
従来の手法のほとんどは、成熟した光フローベースラインと深度値に基づいており、画素面上の2次元運動を3次元空間に投影し、さらに深度運動ブランチと他のサブモジュールを組み合わせることで結果を最適化している。
この積み重ねられたフレームワークは、光学フローと他のモジュールの相補性を利用することができず、正確な深度情報への依存を逃れることはできない。
上記の課題に対処するため,クロススケールマッチングに基づく正規化シーンフローフレームワークScaleRAFTを提案する。
中心となる特徴は、3次元スケール空間における2つのフレーム間のオブジェクトの直接マッチング、すなわち正しい位置とスケールにおける特徴のマッチングである。
従来の方法とは異なり、ScaleRAFTは光フローと深部モーション推定を統一アーキテクチャに統合し、光フローパイプラインと深部モーション推定を相互に促進する。
さらに、ScaleRAFTは特徴マッチングに基づいて深度方向の動きを推定し、正確な深度情報への依存から逸脱する。
実験により,本手法は,運転シナリオにおける動作推定タスクにおいて,これまでで最高の前景性能を達成し,下流3Dタスクを著しく改善した。
関連論文リスト
- Motion-aware 3D Gaussian Splatting for Efficient Dynamic Scene Reconstruction [89.53963284958037]
動的シーン再構築のための新しい動き認識拡張フレームワークを提案する。
具体的には,まず3次元ガウス運動と画素レベルの流れの対応性を確立する。
より厳密な最適化問題を示す先行的な変形に基づくパラダイムに対して,過渡対応変形補助モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:46:26Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - UFD-PRiME: Unsupervised Joint Learning of Optical Flow and Stereo Depth
through Pixel-Level Rigid Motion Estimation [4.445751695675388]
光の流れとステレオの相違は画像の一致であり、そのため関節トレーニングの恩恵を受けることができる。
我々は、フローと格差を共同で推定し、監督なしに訓練される最初のネットワークを設計する。
第2のネットワークは、第1のネットワークから擬似ラベルとして光学的流れを訓練し、第1のネットワークから格差を取り、各ピクセルにおける3次元剛性運動を推定し、再び光学的流れを再構築する。
論文 参考訳(メタデータ) (2023-10-07T07:08:25Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view
Structure from Motion [9.294501649791016]
動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。
本稿では,2視点SfM問題を最大最大推定(MLE)として定式化し,DeepMLEと表記されるフレームワークを用いて解いた。
提案手法は,最先端の2ビューSfM手法よりも精度と一般化能力において優れる。
論文 参考訳(メタデータ) (2022-10-11T15:07:25Z) - DiffPoseNet: Direct Differentiable Camera Pose Estimation [11.941057800943653]
我々は,強靭かつ直接的な制約を強制するために,正規フロー推定のためのネットワークNFlowNetを導入する。
我々は,提案したDiffPoseNetの雑音に対する感度とデータセット間の一般化について,定性的かつ定量的に評価する。
論文 参考訳(メタデータ) (2022-03-21T17:54:30Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。