論文の概要: RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical
Flow and Scene Flow Estimation
- arxiv url: http://arxiv.org/abs/2309.15082v1
- Date: Tue, 26 Sep 2023 17:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 12:41:59.929999
- Title: RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical
Flow and Scene Flow Estimation
- Title(参考訳): RPEFlow:RGB-PointCloud-Eventのマルチモーダル融合による共同光流とシーンフロー推定
- Authors: Zhexiong Wan, Yuxin Mao, Jing Zhang, Yuchao Dai
- Abstract要約: 本稿では,RGB画像,ポイント雲,イベントを多段階多モード融合モデルであるRPEFlowに組み込む。
合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。
- 参考スコア(独自算出の注目度): 43.358140897849616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the RGB images and point clouds fusion methods have been proposed
to jointly estimate 2D optical flow and 3D scene flow. However, as both
conventional RGB cameras and LiDAR sensors adopt a frame-based data acquisition
mechanism, their performance is limited by the fixed low sampling rates,
especially in highly-dynamic scenes. By contrast, the event camera can
asynchronously capture the intensity changes with a very high temporal
resolution, providing complementary dynamic information of the observed scenes.
In this paper, we incorporate RGB images, Point clouds and Events for joint
optical flow and scene flow estimation with our proposed multi-stage multimodal
fusion model, RPEFlow. First, we present an attention fusion module with a
cross-attention mechanism to implicitly explore the internal cross-modal
correlation for 2D and 3D branches, respectively. Second, we introduce a mutual
information regularization term to explicitly model the complementary
information of three modalities for effective multimodal feature learning. We
also contribute a new synthetic dataset to advocate further research.
Experiments on both synthetic and real datasets show that our model outperforms
the existing state-of-the-art by a wide margin. Code and dataset is available
at https://npucvr.github.io/RPEFlow.
- Abstract(参考訳): 近年,RGB画像と点雲融合法を併用して2次元光学的流れと3次元シーンフローを同時推定する手法が提案されている。
しかし、従来のRGBカメラとLiDARセンサーの両方がフレームベースのデータ取得機構を採用しているため、特に高ダイナミックなシーンにおいて、その性能は一定の低いサンプリングレートによって制限される。
対照的に、イベントカメラは、非常に高時間分解能で強度変化を非同期に捉え、観察されたシーンの相補的な動的情報を提供する。
本稿では,多段階マルチモーダル融合モデルであるrpeflowを用いて,光流とシーンフローの同時推定にrgb画像,点雲,イベントを組み込む。
まず、2d分枝と3d分枝の内部クロスモーダル相関を暗黙的に探究するクロスアテンション機構を備えたアテンション融合モジュールを提案する。
第2に、効果的なマルチモーダル特徴学習のための3つのモーダルの補完情報を明示的にモデル化するための相互情報正規化項を導入する。
また、さらなる研究を提唱する新しい合成データセットも提供します。
合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。
コードとデータセットはhttps://npucvr.github.io/RPEFlowで入手できる。
関連論文リスト
- Camera Motion Estimation from RGB-D-Inertial Scene Flow [9.192660643226372]
シーンフローを通してRGB-D画像と慣性データを統合するカメラモーション推定の新しい定式化を提案する。
我々の目標は、慣性測定ユニット(IMU)の状態とともに、剛性3次元環境におけるカメラの動きを正確に推定することである。
論文 参考訳(メタデータ) (2024-04-26T08:42:59Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - Revisiting Event-based Video Frame Interpolation [49.27404719898305]
ダイナミックビジョンセンサーやイベントカメラは、ビデオフレームに豊富な補完情報を提供する。
イベントからの光の流れを推定することは、RGB情報より間違いなく困難である。
イベントベースの中間フレーム合成を複数の単純化段階において漸進的に行う分割・対数戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T06:51:07Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。