論文の概要: WD-DETR: Wavelet Denoising-Enhanced Real-Time Object Detection Transformer for Robot Perception with Event Cameras
- arxiv url: http://arxiv.org/abs/2506.09098v1
- Date: Tue, 10 Jun 2025 14:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.705789
- Title: WD-DETR: Wavelet Denoising-Enhanced Real-Time Object Detection Transformer for Robot Perception with Event Cameras
- Title(参考訳): WD-DETR:イベントカメラを用いたロボット知覚のためのウェーブレット復調型リアルタイム物体検出変換器
- Authors: Yangjie Cui, Boyang Gao, Yiwei Zhang, Xin Dong, Jinwu Xiang, Daochun Li, Zhan Tu,
- Abstract要約: 本稿では,WD-DETRネットワークをイベントカメラに用いるWavelet Denoising-enhanced Detection TRansformerを提案する。
まず、高密度なイベント表現を示し、テンソルとしてイベントをリアルタイムに再構築することを可能にする。
我々は,ロボット用共通搭載コンピュータであるNVIDIA Jetson Orin NXに提案手法を実装し,約35FPSのフレームレートを実現した。
- 参考スコア(独自算出の注目度): 15.095401717217934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous studies on event camera sensing have demonstrated certain detection performance using dense event representations. However, the accumulated noise in such dense representations has received insufficient attention, which degrades the representation quality and increases the likelihood of missed detections. To address this challenge, we propose the Wavelet Denoising-enhanced DEtection TRansformer, i.e., WD-DETR network, for event cameras. In particular, a dense event representation is presented first, which enables real-time reconstruction of events as tensors. Then, a wavelet transform method is designed to filter noise in the event representations. Such a method is integrated into the backbone for feature extraction. The extracted features are subsequently fed into a transformer-based network for object prediction. To further reduce inference time, we incorporate the Dynamic Reorganization Convolution Block (DRCB) as a fusion module within the hybrid encoder. The proposed method has been evaluated on three event-based object detection datasets, i.e., DSEC, Gen1, and 1Mpx. The results demonstrate that WD-DETR outperforms tested state-of-the-art methods. Additionally, we implement our approach on a common onboard computer for robots, the NVIDIA Jetson Orin NX, achieving a high frame rate of approximately 35 FPS using TensorRT FP16, which is exceptionally well-suited for real-time perception of onboard robotic systems.
- Abstract(参考訳): イベントカメラセンシングに関する従来の研究は、密集したイベント表現を用いた特定の検出性能を実証してきた。
しかし、このような高密度表現の蓄積ノイズは十分に注意を払わず、表現品質を低下させ、検出に失敗する可能性が高まる。
この課題に対処するため、イベントカメラ用のWavelet Denoising-enhanced Detection TRansformer(WD-DETRネットワーク)を提案する。
特に、テンソルとしてイベントをリアルタイムに再構築できる密集したイベント表現が最初に提示される。
そして、イベント表現中のノイズをフィルタリングするウェーブレット変換法を設計する。
このような方法は特徴抽出のためにバックボーンに統合される。
抽出した特徴はその後、オブジェクト予測のためにトランスフォーマーベースのネットワークに入力される。
さらに推論時間を短縮するため、ハイブリッドエンコーダ内の融合モジュールとしてDRCB(Dynamic Reorganization Convolution Block)を組み込んだ。
提案手法は,DSEC,Gen1,1Mpxの3つのイベントベースオブジェクト検出データセットで評価されている。
その結果、WD-DETRはテストされた最先端手法よりも優れていた。
さらに,ロボット用共通搭載コンピュータであるNVIDIA Jetson Orin NXに,TensorRT FP16を用いて約35FPSのフレームレートを実現した。
関連論文リスト
- RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - EV-MGDispNet: Motion-Guided Event-Based Stereo Disparity Estimation Network with Left-Right Consistency [4.849111230195686]
イベントカメラはロボットビジョンの分野に革命をもたらす可能性がある。
イベントベースの新しいステレオ異性度推定法であるEV-MGDispNetを提案する。
本手法は, 平均絶対誤差(MAE)と根平均二乗誤差(RMSE)の指標で, 現在知られている最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-08-10T06:13:37Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Neuromorphic Camera Denoising using Graph Neural Network-driven
Transformers [3.805262583092311]
ニューロモルフィック・ビジョン(Neuromorphic vision)は、コンピュータビジョンコミュニティのパラダイムシフトを引き起こしたバイオインスパイアされた技術である。
ニューロモルフィックカメラは、かなりの量の計測ノイズに悩まされている。
このノイズは、ニューロモルフィック事象に基づく知覚とナビゲーションアルゴリズムの性能を劣化させる。
論文 参考訳(メタデータ) (2021-12-17T18:57:36Z) - Sound Event Detection Transformer: An Event-based End-to-End Model for
Sound Event Detection [12.915110466077866]
音のイベント検出(SED)は、監視、ビデオインデックス作成等に広く応用され、注目を集めている。
SEDの既存のモデルは、主にフレームレベルの予測を生成し、それをシーケンスマルチラベル分類問題に変換する。
本稿ではまず,1次元検出変換器 (1D-DETR) について述べる。
SEDの特性から、1D-DETRに音声クエリと1対1のマッチング戦略を追加し、SEDT(Sound Event Detection Transformer)のモデルを作成する。
論文 参考訳(メタデータ) (2021-10-05T12:56:23Z) - Wavelet-Based Network For High Dynamic Range Imaging [64.66969585951207]
光学フローベースやエンド・ツー・エンドのディープラーニングベースのソリューションのような既存の方法は、詳細な復元やゴーストを除去する際にエラーを起こしやすい。
本研究では、周波数領域でHDR融合を行うための新しい周波数誘導型エンド・ツー・エンドディープニューラルネットワーク(FNet)を提案し、ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。
低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。
論文 参考訳(メタデータ) (2021-08-03T12:26:33Z) - EBBINNOT: A Hardware Efficient Hybrid Event-Frame Tracker for Stationary
Dynamic Vision Sensors [5.674895233111088]
本稿では,静止型ニューロモルフィックセンサによって記録された物体を検知・追跡するための複合イベントフレーム手法を提案する。
静的DVSの背景除去特性を活用するために,フレーム内のイベントの有無を通知するイベントベースバイナリ画像生成を提案する。
静止DVSベースのトラフィック監視ソリューションが、同時に記録されたRGBフレームベースの方法と比較されるのは、これが初めてである。
論文 参考訳(メタデータ) (2020-05-31T03:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。