論文の概要: M-FUSE: Multi-frame Fusion for Scene Flow Estimation
- arxiv url: http://arxiv.org/abs/2207.05704v1
- Date: Tue, 12 Jul 2022 17:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:30:19.371010
- Title: M-FUSE: Multi-frame Fusion for Scene Flow Estimation
- Title(参考訳): M-FUSE: シーンフロー推定のための多フレーム融合
- Authors: Lukas Mehl, Azin Jahedi, Jenny Schmalfuss, Andr\'es Bruhn
- Abstract要約: 先行するステレオペアの追加を考慮した,新しいマルチフレームアプローチを提案する。
KITTIベンチマークの実験では、改良されたベースラインと時間融合アプローチの利点が互いに補完していることが示されている。
RAFT-3D法を16%以上上回り,本手法は第2位,第1位にランクインした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, neural network for scene flow estimation show impressive results on
automotive data such as the KITTI benchmark. However, despite of using
sophisticated rigidity assumptions and parametrizations, such networks are
typically limited to only two frame pairs which does not allow them to exploit
temporal information. In our paper we address this shortcoming by proposing a
novel multi-frame approach that considers an additional preceding stereo pair.
To this end, we proceed in two steps: Firstly, building upon the recent RAFT-3D
approach, we develop an advanced two-frame baseline by incorporating an
improved stereo method. Secondly, and even more importantly, exploiting the
specific modeling concepts of RAFT-3D, we propose a U-Net like architecture
that performs a fusion of forward and backward flow estimates and hence allows
to integrate temporal information on demand. Experiments on the KITTI benchmark
do not only show that the advantages of the improved baseline and the temporal
fusion approach complement each other, they also demonstrate that the computed
scene flow is highly accurate. More precisely, our approach ranks second
overall and first for the even more challenging foreground objects, in total
outperforming the original RAFT-3D method by more than 16%. Code is available
at https://github.com/cv-stuttgart/M-FUSE.
- Abstract(参考訳): 近年,KITTIベンチマークなどの自動車データに対して,シーンフロー推定のためのニューラルネットワークが注目されている。
しかしながら、洗練された剛性仮定とパラメトリゼーションを用いているにもかかわらず、そのようなネットワークは通常、時間的情報を活用できない2つのフレームペアに限定される。
本稿では,先行するステレオペアを考慮した新しいマルチフレームアプローチを提案することで,この欠点を解消する。
第一に、最近のRAFT-3Dアプローチに基づいて、改良されたステレオ手法を取り入れた高度な2フレームベースラインを開発する。
次に、さらに重要なこととして、raft-3dの特定のモデリング概念を活用し、前方と後方のフロー推定を融合し、必要に応じて時間情報を統合できるu-netライクなアーキテクチャを提案する。
KITTIベンチマークの実験は、改良されたベースラインと時間融合アプローチの利点が互いに補完していることを示すだけでなく、計算されたシーンフローが極めて正確であることを示す。
より正確には,本手法は,従来のRAFT-3D法を16%以上上回り,さらに難易度の高い対象に対して第2位,第1位である。
コードはhttps://github.com/cv-stuttgart/M-FUSEで入手できる。
関連論文リスト
- Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - AFDetV2: Rethinking the Necessity of the Second Stage for Object
Detection from Point Clouds [15.72821609622122]
我々は点雲からの3次元検出のための1段アンカーフリーネットワークを開発した。
我々は、バックボーンの自己校正畳み込みブロック、キーポイント補助監視、マルチタスクヘッドのIoU予測分岐を使用する。
私たちは2021年のリアルタイム3Dチャレンジで1位を獲得しました。
論文 参考訳(メタデータ) (2021-12-16T21:22:17Z) - Learning Scene Dynamics from Point Cloud Sequences [8.163697683448811]
本稿では,一列に1組の点雲に対して3次元のシーンフローを予測することを目的とした,時間的シーンフロー推定(SSFE)という新たな問題を提案する。
本稿では,SPCM-Netアーキテクチャを導入し,近隣の点群間のマルチスケール相関を計算してこの問題を解決する。
我々は,この手法を逐次点雲予測のために効果的に修正できることを実証した。
論文 参考訳(メタデータ) (2021-11-16T19:52:46Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Next-best-view Regression using a 3D Convolutional Neural Network [0.9449650062296823]
本論文では,次のベストビュー問題に対するデータ駆動アプローチを提案する。
提案手法は、次のベストビューのbtxtpositionを抑えるために、以前の再構成で3D畳み込みニューラルネットワークを訓練する。
提案手法を2つの実験グループを用いて検証した。
論文 参考訳(メタデータ) (2021-01-23T01:50:26Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation [87.74617110803189]
シーンフローとして知られるシーン内の点の3次元運動を推定することは、コンピュータビジョンにおける中核的な問題である。
本稿では,シーンフローの予測を洗練するための反復的アライメント手順の1ステップを学習する再帰的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-19T23:23:48Z) - Learning multiview 3D point cloud registration [74.39499501822682]
本稿では,エンドツーエンドで学習可能なマルチビュー3Dポイントクラウド登録アルゴリズムを提案する。
このアプローチは、エンドツーエンドのトレーニングが可能で、計算コストが小さく、最先端のマージンよりも優れています。
論文 参考訳(メタデータ) (2020-01-15T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。