論文の概要: Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation
- arxiv url: http://arxiv.org/abs/2501.00838v1
- Date: Wed, 01 Jan 2025 13:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:44.226722
- Title: Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation
- Title(参考訳): ロバスト事象-RGB光フロー推定のための空間誘導時間アグリゲーション
- Authors: Qianang Zhou, Junhui Hou, Meiyi Yang, Yongjian Deng, Youfu Li, Junlin Xiong,
- Abstract要約: 現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
本研究は,時間的に密度の高い事象モダリティの集合を導くために空間的に密度の高いモダリティを用いる新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 47.75348821902489
- License:
- Abstract: Current optical flow methods exploit the stable appearance of frame (or RGB) data to establish robust correspondences across time. Event cameras, on the other hand, provide high-temporal-resolution motion cues and excel in challenging scenarios. These complementary characteristics underscore the potential of integrating frame and event data for optical flow estimation. However, most cross-modal approaches fail to fully utilize the complementary advantages, relying instead on simply stacking information. This study introduces a novel approach that uses a spatially dense modality to guide the aggregation of the temporally dense event modality, achieving effective cross-modal fusion. Specifically, we propose an event-enhanced frame representation that preserves the rich texture of frames and the basic structure of events. We use the enhanced representation as the guiding modality and employ events to capture temporally dense motion information. The robust motion features derived from the guiding modality direct the aggregation of motion information from events. To further enhance fusion, we propose a transformer-based module that complements sparse event motion features with spatially rich frame information and enhances global information propagation. Additionally, a mix-fusion encoder is designed to extract comprehensive spatiotemporal contextual features from both modalities. Extensive experiments on the MVSEC and DSEC-Flow datasets demonstrate the effectiveness of our framework. Leveraging the complementary strengths of frames and events, our method achieves leading performance on the DSEC-Flow dataset. Compared to the event-only model, frame guidance improves accuracy by 10\%. Furthermore, it outperforms the state-of-the-art fusion-based method with a 4\% accuracy gain and a 45\% reduction in inference time.
- Abstract(参考訳): 現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
これらの相補的な特徴は、光フロー推定のためのフレームとイベントデータの統合の可能性を示している。
しかし、ほとんどのクロスモーダルアプローチは、単に情報を積み重ねることに頼るのではなく、補完的な利点を完全に活用することができない。
本研究では,空間的に密接なモーダルを用いて時間的に密接な事象モダリティの集合を誘導し,効果的な相互融合を実現する新しいアプローチを提案する。
具体的には、フレームのリッチなテクスチャとイベントの基本構造を保存するイベント強化フレーム表現を提案する。
我々は、拡張表現を誘導モダリティとして使用し、時間的に密度の高い動き情報を取得するためにイベントを用いる。
案内モダリティから導かれるロバストな動き特徴は、イベントからの運動情報の集約を導く。
融合をさらに高めるため,空間的にリッチなフレーム情報を用いてスパースイベント動作特徴を補完し,グローバルな情報伝達を促進するトランスフォーマーベースのモジュールを提案する。
さらに、混合融合エンコーダは、両モードから時空間の包括的特徴を抽出するように設計されている。
MVSECとDSEC-Flowデータセットに関する大規模な実験は、我々のフレームワークの有効性を実証している。
フレームとイベントの相補的な長所を利用して,本手法はDSEC-Flowデータセット上での先行的な性能を実現する。
イベントのみのモデルと比較して、フレームガイダンスは精度を10倍改善する。
さらに、4倍の精度と45倍の推論時間で最先端の核融合法より優れる。
関連論文リスト
- Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - Secrets of Edge-Informed Contrast Maximization for Event-Based Vision [6.735928398631445]
イベントカメラは、高速非同期イベントの形で画像平面内の強度勾配(エッジ)の動きをキャプチャする。
コントラストヒストグラム(CM)は、この効果を逆転させ、鋭い空間構造を生成できる最適化フレームワークである。
CMをユニモーダル(イベントのみ)からバイモーダル(イベントとエッジ)に拡張する新しいハイブリッドアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-22T22:22:26Z) - Event-based Video Frame Interpolation with Edge Guided Motion Refinement [28.331148083668857]
本稿では,イベント信号のエッジ特徴を効果的に活用するためのエンドツーエンドE-VFI学習手法を提案する。
提案手法にはエッジガイド・アテンテーティブ(EGA)モジュールが組み込まれており,アテンテーティブアグリゲーションによって推定された映像の動きを補正する。
合成データと実データの両方を用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-28T12:13:34Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - CrossZoom: Simultaneously Motion Deblurring and Event Super-Resolving [38.96663258582471]
CrossZoomは新しい統合ニューラルネットワーク(CZ-Net)で、ぼやけた入力とそれに対応する高分解能(HR)イベントの露光期間内で、シャープな潜伏シーケンスを共同で回復する。
本稿では, スケール変動特性を活用し, クロスエンハンスメントを実現するために, 相互モダリティ情報を効果的に融合する, マルチスケールのぼかし融合アーキテクチャを提案する。
本稿では,HRシャープブル画像とそれに対応するHR-LRイベントストリームを含む新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-29T03:27:53Z) - Generalizing Event-Based Motion Deblurring in Real-World Scenarios [62.995994797897424]
イベントベースの動作遅延は、低レイテンシイベントを活用することで、有望な結果を示している。
本研究では,フレキシブルな入力空間スケールを実現するとともに,時間スケールの異なる動きのぼかしから学習できるスケール対応ネットワークを提案する。
次に,実世界のデータ分布に適合する2段階の自己教師型学習手法を開発した。
論文 参考訳(メタデータ) (2023-08-11T04:27:29Z) - Revisiting Event-based Video Frame Interpolation [49.27404719898305]
ダイナミックビジョンセンサーやイベントカメラは、ビデオフレームに豊富な補完情報を提供する。
イベントからの光の流れを推定することは、RGB情報より間違いなく困難である。
イベントベースの中間フレーム合成を複数の単純化段階において漸進的に行う分割・対数戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T06:51:07Z) - Asynchronous Optimisation for Event-based Visual Odometry [53.59879499700895]
イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。
イベントベースビジュアル・オドメトリー(VO)に焦点をあてる
動作最適化のバックエンドとして非同期構造を提案する。
論文 参考訳(メタデータ) (2022-03-02T11:28:47Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。