論文の概要: EvRT-DETR: Latent Space Adaptation of Image Detectors for Event-based Vision
- arxiv url: http://arxiv.org/abs/2412.02890v2
- Date: Fri, 18 Apr 2025 22:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 15:07:01.939643
- Title: EvRT-DETR: Latent Space Adaptation of Image Detectors for Event-based Vision
- Title(参考訳): EvRT-DETR:イベントベースビジョンのための画像検出器の遅延空間適応
- Authors: Dmitrii Torbunov, Yihui Ren, Animesh Ghose, Odera Dim, Yonggang Cui,
- Abstract要約: イベントベースのカメラ(EBC)は、従来のカメラに代わるバイオインスパイアされた代替品として登場した。
EBCの画像解析手法の開発は,データの疎結合性や非同期性により困難である。
I2EvDetは、時間的イベントデータ処理で主流のオブジェクト検出をブリッジする新しい適応フレームワークである。
- 参考スコア(独自算出の注目度): 0.7270112855088837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event-based cameras (EBCs) have emerged as a bio-inspired alternative to traditional cameras, offering advantages in power efficiency, temporal resolution, and high dynamic range. However, the development of image analysis methods for EBCs is challenging due to the sparse and asynchronous nature of the data. This work addresses the problem of object detection for EBC cameras. The current approaches to EBC object detection focus on constructing complex data representations and rely on specialized architectures. We introduce I2EvDet (Image-to-Event Detection), a novel adaptation framework that bridges mainstream object detection with temporal event data processing. First, we demonstrate that a Real-Time DEtection TRansformer, or RT-DETR, a state-of-the-art natural image detector, trained on a simple image-like representation of the EBC data achieves performance comparable to specialized EBC methods. Next, as part of our framework, we develop an efficient adaptation technique that transforms image-based detectors into event-based detection models by modifying their frozen latent representation space through minimal architectural additions. The resulting EvRT-DETR model reaches state-of-the-art performance on the standard benchmark datasets Gen1 (mAP $+2.3$) and 1Mpx/Gen4 (mAP $+1.4$). These results demonstrate a fundamentally new approach to EBC object detection through principled adaptation of mainstream architectures, offering an efficient alternative with potential applications to other temporal visual domains. The code is available at: https://github.com/realtime-intelligence/evrt-detr
- Abstract(参考訳): イベントベースのカメラ(EBC)は、従来のカメラに代わるバイオインスパイアされた代替品として登場し、電力効率、時間分解能、高ダイナミックレンジの利点を提供している。
しかし,データの疎結合性や非同期性のため,EBCの画像解析手法の開発は困難である。
本研究は,EBCカメラの物体検出問題に対処する。
EBCオブジェクト検出への現在のアプローチは、複雑なデータ表現の構築に重点を置いており、特殊なアーキテクチャに依存している。
I2EvDet (Image-to-Event Detection) は、時間的イベントデータ処理で主流のオブジェクト検出をブリッジする新しい適応フレームワークである。
まず、実時間検出TRansformer(RT-DETR、最先端の自然画像検出器)が、EBCデータの単純な画像ライクな表現に基づいて訓練され、特殊EBC法に匹敵する性能を達成することを実証する。
次に,本フレームワークの一環として,最小限のアーキテクチャ付加により凍結した潜在表現空間を変更することにより,画像ベース検出器をイベントベース検出モデルに変換する,効率的な適応手法を開発した。
結果として得られたEvRT-DETRモデルは、標準ベンチマークデータセットであるGen1(mAP $+2.3$)と1Mpx/Gen4(mAP $+1.4$)で最先端のパフォーマンスに達する。
これらの結果は、主流アーキテクチャの原則的適応によるEBCオブジェクト検出に対する根本的に新しいアプローチを示し、他の時間的視覚領域への潜在的な応用に対する効率的な代替手段を提供する。
コードは、https://github.com/realtime-intelligence/evrt-detr.comで入手できる。
関連論文リスト
- EMF: Event Meta Formers for Event-based Real-time Traffic Object Detection [5.143097874851516]
イベントカメラは時間分解能が高く、従来のRGBカメラに比べてストレージと帯域幅は少ない。
イベントベースのオブジェクト検出における最近のアプローチは、計算コストの高いトランスフォーマーベースのソリューションを用いることで、このギャップを埋めようとしている。
提案するEMFは,最も効率的なイベントベース物体検出器の性能を向上し,ドメイン内で最速のプログレッシオンベースアーキテクチャとなる。
論文 参考訳(メタデータ) (2025-04-05T09:48:40Z) - Graph-Enhanced EEG Foundation Model [16.335330142000657]
本稿では,時間情報とチャネル間情報を統合した新しい脳波基盤モデルを提案する。
我々のアーキテクチャはグラフニューラルネットワーク(GNN)とマスク付きオートエンコーダを組み合わせることで,効率的な事前学習を実現する。
論文 参考訳(メタデータ) (2024-11-29T06:57:50Z) - Evaluating Image-Based Face and Eye Tracking with Event Cameras [9.677797822200965]
イベントカメラはニューロモルフィックセンサーとしても知られており、ピクセルレベルの局所光強度の変化を捉え、非同期に生成されたイベントと呼ばれるデータを生成する。
このデータフォーマットは、高速で動く物体を撮影する際のアンダーサンプリングのような、従来のカメラで観察される一般的な問題を緩和する。
我々は、従来のアルゴリズムとイベントベースのデータを統合することにより、フレーム形式に変換される可能性を評価する。
論文 参考訳(メタデータ) (2024-08-19T20:27:08Z) - Geometric Features Enhanced Human-Object Interaction Detection [11.513009304308724]
我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。
モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。
GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
論文 参考訳(メタデータ) (2024-06-26T18:52:53Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - ESTformer: Transformer Utilizing Spatiotemporal Dependencies for EEG
Super-resolution [14.2426667945505]
ESTformerは、Transformerに基づいた一時的な依存関係を利用するEEGフレームワークである。
ESTformerは、空間と時間次元に位置符号化法とマルチヘッド自己認識機構を適用する。
論文 参考訳(メタデータ) (2023-12-03T12:26:32Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - QE-BEV: Query Evolution for Bird's Eye View Object Detection in Varied Contexts [2.949710700293865]
3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を担い、バードアイビュー(Bird's Eye View, BEV)の画像の正確な解釈を要求する。
動的クエリ進化戦略を利用して,K平均とTop-Kアテンション機構を利用するフレームワークを提案する。
本評価では,クエリに基づくBEVオブジェクト検出の領域に新たなベンチマークを設定することにより,検出精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2023-10-07T21:55:29Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。