論文の概要: EDmamba: Rethinking Efficient Event Denoising with Spatiotemporal Decoupled SSMs
- arxiv url: http://arxiv.org/abs/2505.05391v3
- Date: Sun, 14 Sep 2025 05:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.113447
- Title: EDmamba: Rethinking Efficient Event Denoising with Spatiotemporal Decoupled SSMs
- Title(参考訳): EDmamba: 時空間分離SSMによる効率的なイベントDenoisingの再考
- Authors: Ciyu Ruan, Zihang Gong, Ruishan Guo, Jingao Xu, Xinlei Chen,
- Abstract要約: イベントカメラはマイクロ秒のレイテンシと広いダイナミックレンジを提供するが、生のストリームは空間的なアーティファクトによってマージされる。
EDmambaは、物理的メカニズムの異なる空間的および時間的ノイズが生じるというキーインサイトを取り入れた、コンパクトなイベントデノベーションフレームワークである。
この分離された設計は、ネットワークを88.9Kパラメータと2.27GPに蒸留し、1つのトランスフォーマー上で68msで100Kイベントのリアルタイムスループットを実現する。
- 参考スコア(独自算出の注目度): 23.63023704154084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras provide micro-second latency and broad dynamic range, yet their raw streams are marred by spatial artifacts (e.g., hot pixels) and temporally inconsistent background activity. Existing methods jointly process the entire 4D event volume (x, y, p, t), forcing heavy spatio-temporal attention that inflates parameters, FLOPs, and latency. We introduce EDmamba, a compact event-denoising framework that embraces the key insight that spatial and temporal noise arise from different physical mechanisms and can therefore be suppressed independently. A polarity- and geometry-aware encoder first extracts coarse cues, which are then routed to two lightweight state-space branches: a Spatial-SSM that learns location-conditioned filters to silence persistent artifacts, and a Temporal-SSM that models causal signal dynamics to eliminate bursty background events. This decoupled design distills the network to only 88.9K parameters and 2.27GFLOPs, enabling real-time throughput of 100K events in 68ms on a single GPU, 36x faster than recent Transformer baselines. Despite its economy, EDmamba establishes new state-of-the-art accuracy on four public benchmarks, outscoring the strongest prior model by 2.1 percentage points.
- Abstract(参考訳): イベントカメラはマイクロ秒のレイテンシと広いダイナミックレンジを提供するが、生のストリームは空間的アーティファクト(例えばホットピクセル)と時間的に一貫性のないバックグラウンドアクティビティによってマージされる。
既存の方法は、4Dイベントの体積(x, y, p, t)全体を共同で処理し、パラメータ、FLOP、遅延を膨らませる時空間的注意を強いる。
EDmambaは,物理的メカニズムの異なる空間的・時間的ノイズを独立に抑制できる,というキーインサイトを取り入れた,コンパクトなイベントデノベーションフレームワークである。
極性と幾何学を意識したエンコーダは、まず粗いキューを抽出し、次に2つの軽量なステートスペースブランチにルーティングする: 位置条件付きフィルタを学習して永続的なアーティファクトを沈黙させるSSMと、因果信号のダイナミクスをモデル化してバーストしたバックグラウンドイベントを除去するTemporal-SSMである。
この分離された設計は、ネットワークを88.9Kパラメータと2.27GFLOPに蒸留し、最近のTransformerベースラインの36倍の68msで100Kイベントのリアルタイムスループットを実現する。
経済にもかかわらず、EDmambaは4つの公開ベンチマークで新たな最先端の精度を確立し、最強の先行モデルを2.1ポイント上回っている。
関連論文リスト
- FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration [21.39395366378851]
本稿では,周波数領域推論と線形時間列モデリングを融合した二分岐フレームワークFoSSを提案する。
Argoverse 1とArgoverse 2ベンチマークの実験では、FoSSが最先端の精度を実現し、22.5%、パラメータが40%以上削減された。
論文 参考訳(メタデータ) (2026-03-01T21:38:59Z) - BabyMamba-HAR: Lightweight Selective State Space Models for Efficient Human Activity Recognition on Resource Constrained Devices [0.0]
ウェアラブルおよびモバイルデバイス上のヒューマンアクティビティ認識(HAR)は、メモリフットプリントと計算予算によって制限される。
選択状態空間モデル(SSM)は入力依存ゲーティングによる線形時間列処理を提供する。
BabyMamba-HARは、リソース制約されたHARのための2つの新しい軽量なMambaインスパイアされたアーキテクチャからなるフレームワークである。
論文 参考訳(メタデータ) (2026-02-10T15:16:32Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - EGTM: Event-guided Efficient Turbulence Mitigation [19.09752432962073]
乱流緩和(TM)は、大気の乱流によってもたらされる歪みやぼやけをフレームカメラに除去することを目的としている。
本稿では, 時間的ラッキー融合のために, ノイズの多い乱流イベントから, 画素レベルの信頼性の高い乱れのないガイダンスを抽出する新しいEGTMフレームワークを提案する。
実世界のイベント駆動TMデータセットにコントリビュートするための,最初の乱流データ取得システムを構築した。
論文 参考訳(メタデータ) (2025-09-04T01:49:13Z) - Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing [2.5465367830324905]
イベントベースの視線追跡は、きめ細かい認知状態の推測に重要な可能性を秘めている。
本稿では、既存の事象に基づく視線推定モデルの出力を高めるために、モデルに依存しない推論時間改善フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-14T14:48:11Z) - PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining [47.81253972389206]
イベントカメラは高時間分解能とダイナミックレンジで優れるが、降雨条件下では高密度ノイズに悩まされる。
イベントデライニングのための新しいポイントベースカメラフレームワークであるPre-Mambaを提案する。
論文 参考訳(メタデータ) (2025-05-08T14:52:45Z) - Simultaneous Motion And Noise Estimation with Event Cameras [18.2247510082534]
イベントカメラは、ノイズを特徴付けるのが難しい視覚センサーが登場しつつある。
既存のイベントカメラのデノイング手法は、しばしば独立して設計される。
本稿では,我々の知る限り,各形態の運動を同時に推定する最初の手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T02:47:40Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera [17.61884467264023]
本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。
イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。
本手法は,7Mパラメータのみの未確認被験者に対して62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
論文 参考訳(メタデータ) (2025-03-16T09:08:02Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Leveraging Consistent Spatio-Temporal Correspondence for Robust Visual Odometry [7.517597541959445]
S-Temporal Visual Odometry (STVO) は,マルチフレームフローマッチングの精度と一貫性を高めるための,新しいディープネットワークアーキテクチャである。
我々のSTVOはETH3Dベンチマークの最先端性能とKITTI Odometryベンチマークの38.9%を実現している。
論文 参考訳(メタデータ) (2024-12-22T08:47:13Z) - Event-Based Tracking Any Point with Motion-Augmented Temporal Consistency [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
出来事の空間的空間性や動きの感度によって引き起こされる課題に対処する。
競合モデルパラメータによる処理を150%高速化する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - LED: A Large-scale Real-world Paired Dataset for Event Camera Denoising [19.51468512911655]
イベントカメラは、ノイズ干渉を受けやすい場合に動的シーン情報をキャプチャする点で大きな利点がある。
我々は,高解像度(1200*680)イベントストリームで18K秒の3Kシーケンスを含む,新しいペア化された実世界のイベントデノゲーションデータセット(LED)を構築した。
そこで本研究では,GTを生音から分離して生成する手法として,均質な二重事象を用いた新しい効果的なデノナイジングフレームワーク(DED)を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:02:35Z) - Fast Window-Based Event Denoising with Spatiotemporal Correlation
Enhancement [85.66867277156089]
同時にイベントのスタックを扱うウィンドウベースのイベントデノゲーションを提案する。
空間領域では、実世界の事象と雑音を識別するために、最大後部(MAP)を選択する。
我々のアルゴリズムは、イベントノイズを効果的かつ効率的に除去し、下流タスクの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-02-14T15:56:42Z) - The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Realistic Noise Synthesis with Diffusion Models [44.404059914652194]
ディープラーニングモデルには、大規模な実世界のトレーニングデータが必要です。
本稿では,これらの課題に対処するために拡散モデルを用いた新しい実音合成拡散器(RNSD)法を提案する。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Advancing Unsupervised Low-light Image Enhancement: Noise Estimation, Illumination Interpolation, and Self-Regulation [55.07472635587852]
低光画像強調(LLIE)技術は、画像の詳細の保存とコントラストの強化に顕著な進歩をもたらした。
これらのアプローチは、動的ノイズを効率的に緩和し、様々な低照度シナリオを収容する上で、永続的な課題に直面する。
まず,低照度画像の雑音レベルを迅速かつ高精度に推定する方法を提案する。
次に、照明と入力の一般的な制約を満たすために、Learningable Illumination Interpolator (LII) を考案する。
論文 参考訳(メタデータ) (2023-05-17T13:56:48Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。