論文の概要: ScaleRAFT: Cross-Scale Recurrent All-Pairs Field Transforms for 3D Motion Estimation
- arxiv url: http://arxiv.org/abs/2407.09797v1
- Date: Sat, 13 Jul 2024 07:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:47:21.511827
- Title: ScaleRAFT: Cross-Scale Recurrent All-Pairs Field Transforms for 3D Motion Estimation
- Title(参考訳): ScaleRAFT:3次元運動推定のためのクロススケールリカレント全ペア場変換
- Authors: Han Ling, Quansen Sun,
- Abstract要約: 本稿では,クロススケールマッチングに基づく正規化シーンフローフレームワークScaleRAFTを提案する。
本手法は,運転シナリオにおける動作推定タスクにおいて,これまでで最高の前景性能を達成している。
- 参考スコア(独自算出の注目度): 15.629496237910999
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we study the problem of estimating the 3D motion of dense pixels from continuous image pairs. Most previous methods are based on mature optical flow baselines and depth values, projecting the 2D motion on pixel planes into 3D space, and further optimizing the results by combining depth-motion-branch and other sub-modules. This stacked framework cannot leverage the complementarity between optical flow and other modules nor escape the dependence on accurate depth information. To address the above challenges, we propose a normalized scene flow framework, ScaleRAFT, based on cross-scale matching. Its core feature is directly matching objects between two frames in 3D scale space, i.e. matching features at the correct location and scale. Unlike previous methods, ScaleRAFT integrates optical flow and deep motion estimation into a unified architecture, allowing the optical flow pipeline and deep motion estimation to promote each other mutually. Moreover, ScaleRAFT estimates motion in the depth direction based on feature matching, breaking away from the dependence on accurate depth information. Experimentally, our method has achieved the best foreground performance so far in motion estimation tasks in driving scenarios, and has significantly improved various downstream 3D tasks.
- Abstract(参考訳): 本稿では,連続画像対から高密度画素の3次元運動を推定する問題について検討する。
従来の手法のほとんどは、成熟した光フローベースラインと深度値に基づいており、画素面上の2次元運動を3次元空間に投影し、さらに深度運動ブランチと他のサブモジュールを組み合わせることで結果を最適化している。
この積み重ねられたフレームワークは、光学フローと他のモジュールの相補性を利用することができず、正確な深度情報への依存を逃れることはできない。
上記の課題に対処するため,クロススケールマッチングに基づく正規化シーンフローフレームワークScaleRAFTを提案する。
中心となる特徴は、3次元スケール空間における2つのフレーム間のオブジェクトの直接マッチング、すなわち正しい位置とスケールにおける特徴のマッチングである。
従来の方法とは異なり、ScaleRAFTは光フローと深部モーション推定を統一アーキテクチャに統合し、光フローパイプラインと深部モーション推定を相互に促進する。
さらに、ScaleRAFTは特徴マッチングに基づいて深度方向の動きを推定し、正確な深度情報への依存から逸脱する。
実験により,本手法は,運転シナリオにおける動作推定タスクにおいて,これまでで最高の前景性能を達成し,下流3Dタスクを著しく改善した。
関連論文リスト
- Gravity-aligned Rotation Averaging with Circular Regression [53.81374943525774]
我々は,重力方向をグローバルパイプラインの回転平均位相に統合する原理的アプローチを導入する。
4つの大規模データセットで最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-10-16T17:37:43Z) - ScaleFlow++: Robust and Accurate Estimation of 3D Motion from Video [26.01796507893086]
本稿では,3次元モーション認識手法であるScaleFlow++を提案する。
たった1対のRGBイメージで、ScaleFlow++は光学フローとモーションインディープス(MID)をしっかりと推定できる。
KITTIでは、ScaleFlow++は、SF-allを6.21から5.79に削減し、最高のモノクロシーンフロー推定性能を達成した。
論文 参考訳(メタデータ) (2024-09-16T11:59:27Z) - Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。
本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - MemFlow: Optical Flow Estimation and Prediction with Memory [54.22820729477756]
本稿では,メモリを用いた光フロー推定と予測をリアルタイムに行うMemFlowを提案する。
本手法では,メモリの読み出しと更新を行うモジュールをリアルタイムに収集する。
われわれのアプローチは、過去の観測に基づいて、将来の光流の予測にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-04-07T04:56:58Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - Rethinking Optical Flow from Geometric Matching Consistent Perspective [38.014569953980754]
本稿では,従来の光流量推定法について再考する。
我々は,より優れた特徴表現を持つ光フロー推定(MatchFlow)のための事前学習タスクとして,GIMを使用している。
Sintel クリーンパスと KITTI テストセットの GMA から 11.5% と 10.1% の誤差削減を実現した。
論文 参考訳(メタデータ) (2023-03-15T06:00:38Z) - What Matters for 3D Scene Flow Network [44.02710380584977]
点雲からの3次元シーンフロー推定はコンピュータビジョンにおける低レベルな3次元モーション知覚タスクである。
そこで本研究では,初期シーンフロー推定時の逆方向の信頼性検証が可能な,新しい全対全フロー埋め込み層を提案する。
提案したモデルは,FlyingThings3Dデータセットで少なくとも38.2%,KITTI Scene Flowデータセットで24.7%,EPE3Dメトリックで,既存のすべてのメソッドを上回ります。
論文 参考訳(メタデータ) (2022-07-19T09:27:05Z) - CamLiFlow: Bidirectional Camera-LiDAR Fusion for Joint Optical Flow and
Scene Flow Estimation [15.98323974821097]
同期した2Dデータと3Dデータから光フローとシーンフローを同時推定する問題について検討する。
そこで本研究では,CamLiFlowと呼ばれる新しいエンドツーエンドフレームワークを提案する。
提案手法は,KITTI Scene Flowベンチマークで1位であり,従来の1/7パラメータよりも優れていた。
論文 参考訳(メタデータ) (2021-11-20T02:58:38Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation [87.74617110803189]
シーンフローとして知られるシーン内の点の3次元運動を推定することは、コンピュータビジョンにおける中核的な問題である。
本稿では,シーンフローの予測を洗練するための反復的アライメント手順の1ステップを学習する再帰的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-19T23:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。