論文の概要: Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation
- arxiv url: http://arxiv.org/abs/2505.01548v1
- Date: Fri, 02 May 2025 19:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.171063
- Title: Rethinking RGB-Event Semantic Segmentation with a Novel Bidirectional Motion-enhanced Event Representation
- Title(参考訳): 新しい双方向運動強調イベント表現によるRGBイベントセマンティックセマンティックセマンティックセグメンテーションの再考
- Authors: Zhen Yao, Xiaowen Ying, Mooi Choo Chuah,
- Abstract要約: イベントカメラは動きのダイナミクスを捉え、様々なコンピュータビジョンタスクにおいて大きな可能性を秘めている。
RGBイベント融合は、(i)時間的、(ii)時間的、(iii)モード的不整合の3つの不整合に直面している。
本稿では,スパースイベントボクセルを高密度かつ時間的に一貫性のある形式に変換する動き強化イベント(MET)を提案する。
- 参考スコア(独自算出の注目度): 8.76832497215149
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event cameras capture motion dynamics, offering a unique modality with great potential in various computer vision tasks. However, RGB-Event fusion faces three intrinsic misalignments: (i) temporal, (ii) spatial, and (iii) modal misalignment. Existing voxel grid representations neglect temporal correlations between consecutive event windows, and their formulation with simple accumulation of asynchronous and sparse events is incompatible with the synchronous and dense nature of RGB modality. To tackle these challenges, we propose a novel event representation, Motion-enhanced Event Tensor (MET), which transforms sparse event voxels into a dense and temporally coherent form by leveraging dense optical flows and event temporal features. In addition, we introduce a Frequency-aware Bidirectional Flow Aggregation Module (BFAM) and a Temporal Fusion Module (TFM). BFAM leverages the frequency domain and MET to mitigate modal misalignment, while bidirectional flow aggregation and temporal fusion mechanisms resolve spatiotemporal misalignment. Experimental results on two large-scale datasets demonstrate that our framework significantly outperforms state-of-the-art RGB-Event semantic segmentation approaches. Our code is available at: https://github.com/zyaocoder/BRENet.
- Abstract(参考訳): イベントカメラは動きのダイナミクスを捉え、様々なコンピュータビジョンタスクにおいて大きな可能性を秘めている。
しかし、RGB-Event融合は本質的な3つの不一致に直面している。
訳語 時間;時間;時間
(二)空間、及び
(三)様相の相違
既存のボクセルグリッド表現は、連続するイベントウィンドウ間の時間的相関を無視し、非同期およびスパースイベントの単純な蓄積によるそれらの定式化は、RGBモダリティの同期的かつ密集的な性質とは相容れない。
これらの課題に対処するために,我々は,高密度光流とイベント時相特性を利用して,スパースイベントボクセルを高密度かつ時間的に整合した形に変換する,新しいイベント表現,MET(Motion-enhanced Event Tensor)を提案する。
さらに,周波数対応双方向フローアグリゲーションモジュール (BFAM) とテンポラルフュージョンモジュール (TFM) を導入する。
BFAMは周波数領域とMETを利用してモーダルな不整合を緩和し、双方向のフローアグリゲーションと時間融合機構は時空間的不整合を解消する。
2つの大規模データセットに対する実験結果から、我々のフレームワークは最先端のRGB-Eventセマンティックセマンティックセマンティック・セマンティクス・アプローチを大幅に上回っていることが示された。
私たちのコードは、https://github.com/zyaocoder/BRENet.comで利用可能です。
関連論文リスト
- Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation [47.75348821902489]
現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
本研究は,時間的に密度の高い事象モダリティの集合を導くために空間的に密度の高いモダリティを用いる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-01T13:40:09Z) - Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking [50.26836546224782]
事象に基づく視線追跡は、高時間分解能と低冗長性で非常に有望である。
点眼、固定、ササード、スムーズな追跡を含む眼球運動パターンの多様性と急激さは、眼球運動の局所化に重要な課題を提起する。
本稿では、文脈時空間情報を完全に活用するための双方向の長期シーケンスモデリングと時間変化状態選択機構を提案する。
論文 参考訳(メタデータ) (2024-04-18T11:09:25Z) - Learning Spatial-Temporal Implicit Neural Representations for
Event-Guided Video Super-Resolution [9.431635577890745]
イベントカメラは、強度変化を非同期に検知し、高いダイナミックレンジと低レイテンシでイベントストリームを生成する。
これは、挑戦的なビデオ超解像(VSR)タスクを導くためにイベントを利用する研究にインスピレーションを与えている。
本稿では,イベントの高時間分解能の利点を生かして,ランダムスケールでのVSRの実現という新たな課題に対処する試みを行う。
論文 参考訳(メタデータ) (2023-03-24T02:42:16Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - RGB-Event Fusion for Moving Object Detection in Autonomous Driving [3.5397758597664306]
移動物体検出(MOD)は安全な自動運転を実現するための重要な視覚課題である。
センサ技術の最近の進歩、特にイベントカメラは、移動物体をより良くモデル化するための従来のカメラアプローチを自然に補完することができる。
我々は、より堅牢なMODを実現するために、2つの相補的モダリティを共同で活用する新しいRGB-Event fusion NetworkであるRENetを提案する。
論文 参考訳(メタデータ) (2022-09-17T12:59:08Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。