論文の概要: M-FUSE: Multi-frame Fusion for Scene Flow Estimation
- arxiv url: http://arxiv.org/abs/2207.05704v1
- Date: Tue, 12 Jul 2022 17:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:30:19.371010
- Title: M-FUSE: Multi-frame Fusion for Scene Flow Estimation
- Title(参考訳): M-FUSE: シーンフロー推定のための多フレーム融合
- Authors: Lukas Mehl, Azin Jahedi, Jenny Schmalfuss, Andr\'es Bruhn
- Abstract要約: 先行するステレオペアの追加を考慮した,新しいマルチフレームアプローチを提案する。
KITTIベンチマークの実験では、改良されたベースラインと時間融合アプローチの利点が互いに補完していることが示されている。
RAFT-3D法を16%以上上回り,本手法は第2位,第1位にランクインした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, neural network for scene flow estimation show impressive results on
automotive data such as the KITTI benchmark. However, despite of using
sophisticated rigidity assumptions and parametrizations, such networks are
typically limited to only two frame pairs which does not allow them to exploit
temporal information. In our paper we address this shortcoming by proposing a
novel multi-frame approach that considers an additional preceding stereo pair.
To this end, we proceed in two steps: Firstly, building upon the recent RAFT-3D
approach, we develop an advanced two-frame baseline by incorporating an
improved stereo method. Secondly, and even more importantly, exploiting the
specific modeling concepts of RAFT-3D, we propose a U-Net like architecture
that performs a fusion of forward and backward flow estimates and hence allows
to integrate temporal information on demand. Experiments on the KITTI benchmark
do not only show that the advantages of the improved baseline and the temporal
fusion approach complement each other, they also demonstrate that the computed
scene flow is highly accurate. More precisely, our approach ranks second
overall and first for the even more challenging foreground objects, in total
outperforming the original RAFT-3D method by more than 16%. Code is available
at https://github.com/cv-stuttgart/M-FUSE.
- Abstract(参考訳): 近年,KITTIベンチマークなどの自動車データに対して,シーンフロー推定のためのニューラルネットワークが注目されている。
しかしながら、洗練された剛性仮定とパラメトリゼーションを用いているにもかかわらず、そのようなネットワークは通常、時間的情報を活用できない2つのフレームペアに限定される。
本稿では,先行するステレオペアを考慮した新しいマルチフレームアプローチを提案することで,この欠点を解消する。
第一に、最近のRAFT-3Dアプローチに基づいて、改良されたステレオ手法を取り入れた高度な2フレームベースラインを開発する。
次に、さらに重要なこととして、raft-3dの特定のモデリング概念を活用し、前方と後方のフロー推定を融合し、必要に応じて時間情報を統合できるu-netライクなアーキテクチャを提案する。
KITTIベンチマークの実験は、改良されたベースラインと時間融合アプローチの利点が互いに補完していることを示すだけでなく、計算されたシーンフローが極めて正確であることを示す。
より正確には,本手法は,従来のRAFT-3D法を16%以上上回り,さらに難易度の高い対象に対して第2位,第1位である。
コードはhttps://github.com/cv-stuttgart/M-FUSEで入手できる。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - AFDetV2: Rethinking the Necessity of the Second Stage for Object
Detection from Point Clouds [15.72821609622122]
我々は点雲からの3次元検出のための1段アンカーフリーネットワークを開発した。
我々は、バックボーンの自己校正畳み込みブロック、キーポイント補助監視、マルチタスクヘッドのIoU予測分岐を使用する。
私たちは2021年のリアルタイム3Dチャレンジで1位を獲得しました。
論文 参考訳(メタデータ) (2021-12-16T21:22:17Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Next-best-view Regression using a 3D Convolutional Neural Network [0.9449650062296823]
本論文では,次のベストビュー問題に対するデータ駆動アプローチを提案する。
提案手法は、次のベストビューのbtxtpositionを抑えるために、以前の再構成で3D畳み込みニューラルネットワークを訓練する。
提案手法を2つの実験グループを用いて検証した。
論文 参考訳(メタデータ) (2021-01-23T01:50:26Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。