論文の概要: EvRT-DETR: The Surprising Effectiveness of DETR-based Detection for Event Cameras
- arxiv url: http://arxiv.org/abs/2412.02890v1
- Date: Tue, 03 Dec 2024 22:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:30.364324
- Title: EvRT-DETR: The Surprising Effectiveness of DETR-based Detection for Event Cameras
- Title(参考訳): EvRT-DETR:イベントカメラにおけるDETRに基づく検出の意外な効果
- Authors: Dmitrii Torbunov, Yihui Ren, Animesh Ghose, Odera Dim, Yonggang Cui,
- Abstract要約: イベントベースのカメラ(EBC)は、従来のカメラに代わるバイオインスパイアされた代替品として登場した。
本研究は,EBCカメラの物体検出問題に対処する。
- 参考スコア(独自算出の注目度): 0.7270112855088837
- License:
- Abstract: Event-based cameras (EBCs) have emerged as a bio-inspired alternative to traditional cameras, offering advantages in power efficiency, temporal resolution, and high dynamic range. However, the development of image analysis methods for EBCs is challenging due to the sparse and asynchronous nature of the data. This work addresses the problem of object detection for the EBC cameras. The current approaches to EBC object detection focus on constructing complex data representations and rely on specialized architectures. Here, we demonstrate that the combination of a Real-Time DEtection TRansformer, or RT-DETR, a state-of-the-art natural image detector, with a simple image-like representation of the EBC data achieves remarkable performance, surpassing current state-of-the-art results. Specifically, we show that a properly trained RT-DETR model on the EBC data achieves performance comparable to the most advanced EBC object detection methods. Next, we propose a low-rank adaptation (LoRA)-inspired way to augment the RT-DETR model to handle temporal dynamics of the data. The designed EvRT-DETR model outperforms the current, most advanced results on standard benchmark datasets Gen1 (mAP $+2.3$) and Gen4 (mAP $+1.4$) while only using standard modules from natural image and video analysis. These results demonstrate that effective EBC object detection can be achieved through careful adaptation of mainstream object detection architectures without requiring specialized architectural engineering. The code is available at: https://github.com/realtime-intelligence/evrt-detr
- Abstract(参考訳): イベントベースのカメラ(EBC)は、従来のカメラに代わるバイオインスパイアされた代替品として登場し、電力効率、時間分解能、高ダイナミックレンジの利点を提供している。
しかし,データの疎結合性や非同期性のため,EBCの画像解析手法の開発は困難である。
本研究は,EBCカメラの物体検出問題に対処する。
EBCオブジェクト検出への現在のアプローチは、複雑なデータ表現の構築に重点を置いており、特殊なアーキテクチャに依存している。
本稿では,実時間検出TRansformer(RT-DETR,最先端の自然画像検出器)とEBCデータのイメージライクな表現を組み合わせることで,現状の成果を上回る優れた性能が得られることを示す。
具体的には、EBCデータ上のRT-DETRモデルにより、最も高度なEBCオブジェクト検出手法に匹敵する性能が得られることを示す。
次に,低ランク適応(LoRA)に基づくRT-DETRモデルの拡張手法を提案する。
デザインされたEvRT-DETRモデルは、標準ベンチマークデータセットであるGen1 (mAP $+2.3$) とGen4 (mAP $+1.4$) において、現在の最も先進的な結果よりも優れている。
これらの結果から,特定のアーキテクチャ工学を必要とせずに,主流のオブジェクト検出アーキテクチャを慎重に適応させることで,効果的なEBCオブジェクト検出を実現することが可能であることが示唆された。
コードは、https://github.com/realtime-intelligence/evrt-detr.comで入手できる。
関連論文リスト
- Can EEG resting state data benefit data-driven approaches for motor-imagery decoding? [4.870701423888026]
本稿では,デコードモデルの一般化を促進するための特徴結合手法を提案する。
我々は、EEG信号分類のための標準的な畳み込みニューラルネットワークであるEEGNetモデルと、静止状態のEEGデータから導かれる機能的接続手段を組み合わせる。
ユーザ内のシナリオに対する平均精度の改善が観察されているが、ランダムなデータ結合と比較して、ユーザ間のシナリオ間の結合はメリットがない。
論文 参考訳(メタデータ) (2024-10-28T07:18:32Z) - ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras [33.81592783496106]
イベントベースのビジュアルオドメトリーは、トラッキングとサブプロブレムを並列にマッピングすることを目的としている。
イベントベースのステレオビジュアル慣性オドメトリーシステムを構築した。
論文 参考訳(メタデータ) (2024-10-12T05:35:27Z) - Evaluating Image-Based Face and Eye Tracking with Event Cameras [9.677797822200965]
イベントカメラはニューロモルフィックセンサーとしても知られており、ピクセルレベルの局所光強度の変化を捉え、非同期に生成されたイベントと呼ばれるデータを生成する。
このデータフォーマットは、高速で動く物体を撮影する際のアンダーサンプリングのような、従来のカメラで観察される一般的な問題を緩和する。
我々は、従来のアルゴリズムとイベントベースのデータを統合することにより、フレーム形式に変換される可能性を評価する。
論文 参考訳(メタデータ) (2024-08-19T20:27:08Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - ESTformer: Transformer Utilizing Spatiotemporal Dependencies for EEG
Super-resolution [14.2426667945505]
ESTformerは、Transformerに基づいた一時的な依存関係を利用するEEGフレームワークである。
ESTformerは、空間と時間次元に位置符号化法とマルチヘッド自己認識機構を適用する。
論文 参考訳(メタデータ) (2023-12-03T12:26:32Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。