論文の概要: SODFormer: Streaming Object Detection with Transformer Using Events and
Frames
- arxiv url: http://arxiv.org/abs/2308.04047v1
- Date: Tue, 8 Aug 2023 04:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:07:07.616507
- Title: SODFormer: Streaming Object Detection with Transformer Using Events and
Frames
- Title(参考訳): sodformer: イベントとフレームを用いたtransformerによるストリーミングオブジェクト検出
- Authors: Dianze Li and Jianing Li and Yonghong Tian
- Abstract要約: DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
- 参考スコア(独自算出の注目度): 31.293847706713052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DAVIS camera, streaming two complementary sensing modalities of asynchronous
events and frames, has gradually been used to address major object detection
challenges (e.g., fast motion blur and low-light). However, how to effectively
leverage rich temporal cues and fuse two heterogeneous visual streams remains a
challenging endeavor. To address this challenge, we propose a novel streaming
object detector with Transformer, namely SODFormer, which first integrates
events and frames to continuously detect objects in an asynchronous manner.
Technically, we first build a large-scale multimodal neuromorphic object
detection dataset (i.e., PKU-DAVIS-SOD) over 1080.1k manual labels. Then, we
design a spatiotemporal Transformer architecture to detect objects via an
end-to-end sequence prediction problem, where the novel temporal Transformer
module leverages rich temporal cues from two visual streams to improve the
detection performance. Finally, an asynchronous attention-based fusion module
is proposed to integrate two heterogeneous sensing modalities and take
complementary advantages from each end, which can be queried at any time to
locate objects and break through the limited output frequency from synchronized
frame-based fusion strategies. The results show that the proposed SODFormer
outperforms four state-of-the-art methods and our eight baselines by a
significant margin. We also show that our unifying framework works well even in
cases where the conventional frame-based camera fails, e.g., high-speed motion
and low-light conditions. Our dataset and code can be available at
https://github.com/dianzl/SODFormer.
- Abstract(参考訳): DAVISカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングするが、徐々に大きなオブジェクト検出の課題(例えば、高速モーションのぼかしと低照度)に対処するために使われている。
しかし、リッチな時間的手がかりを効果的に活用し、2つの異種視覚ストリームを融合する方法は、依然として困難な試みである。
この課題に対処するために,まずイベントとフレームを統合し,非同期にオブジェクトを連続的に検出する,transformerを備えた新しいストリーミングオブジェクト検出器sodformerを提案する。
まず,PKU-DAVIS-SOD(PKU-DAVIS-SOD)を1080.1k以上の手動ラベル上に構築する。
そこで,この時空間トランスフォーマーモジュールは2つの視覚ストリームからのリッチな時間的キューを利用して検出性能を向上させることで,オブジェクトを終端から終端までのシーケンス予測問題により検出する時空間トランスフォーマーアーキテクチャを設計する。
最後に、非同期アテンションベースの融合モジュールを提案し、2つの不均一なセンシングモードを統合し、各端から相補的な利点を生かし、任意のタイミングでオブジェクトを探索し、同期フレームベースの融合戦略から限られた出力周波数を破ることができる。
その結果,提案するsodformerは,最先端手法が4つ,ベースラインが8つと有意な差を示した。
また、従来のフレームベースカメラが故障した場合、例えば、高速モーションや低照度条件などでも、統一フレームワークがうまく機能することを示す。
データセットとコードはhttps://github.com/dianzl/SODFormer.orgから入手可能です。
関連論文リスト
- Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - End-to-End Video Object Detection with Spatial-Temporal Transformers [33.40462554784311]
本稿では,時空間トランスフォーマアーキテクチャに基づくエンドツーエンドのビデオオブジェクト検出モデルであるTransVODを提案する。
本手法では,Seq-NMSやチューブレット再構成のような複雑な後処理は不要である。
これらの設計により、ImageNet VIDデータセット上の大きなマージン(3%-4% mAP)で、強力なベースライン変形可能なDETRが向上した。
論文 参考訳(メタデータ) (2021-05-23T11:44:22Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - Asynchronous Tracking-by-Detection on Adaptive Time Surfaces for
Event-based Object Tracking [87.0297771292994]
本稿では,イベントベースのトラッキング・バイ・ディテクト(ETD)手法を提案する。
この目的を達成するために,線形時間決定(ATSLTD)イベント・ツー・フレーム変換アルゴリズムを用いた適応時間曲面を提案する。
提案手法と,従来のカメラやイベントカメラをベースとした7種類のオブジェクト追跡手法と,ETDの2種類のバリエーションを比較した。
論文 参考訳(メタデータ) (2020-02-13T15:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。