論文の概要: Scene Adaptive Sparse Transformer for Event-based Object Detection
- arxiv url: http://arxiv.org/abs/2404.01882v1
- Date: Tue, 2 Apr 2024 12:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 16:38:36.490676
- Title: Scene Adaptive Sparse Transformer for Event-based Object Detection
- Title(参考訳): イベントベースオブジェクト検出のためのシーン適応スパース変換器
- Authors: Yansong Peng, Hebei Li, Yueyi Zhang, Xiaoyan Sun, Feng Wu,
- Abstract要約: イベントベースオブジェクト検出のためのSAST(Scene Adaptive Sparse Transformer)を提案する。
SASTはウィンドウツーケンコスパーシフィケーションを可能にし、フォールトトレランスを大幅に向上し、計算オーバーヘッドを低減する。
2つの大規模イベントベースのオブジェクト検出データセットのパフォーマンスと効率の両方において、他の高密度でスパースなネットワークよりも優れています。
- 参考スコア(独自算出の注目度): 40.04162039970849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent Transformer-based approaches have shown impressive performances on event-based object detection tasks, their high computational costs still diminish the low power consumption advantage of event cameras. Image-based works attempt to reduce these costs by introducing sparse Transformers. However, they display inadequate sparsity and adaptability when applied to event-based object detection, since these approaches cannot balance the fine granularity of token-level sparsification and the efficiency of window-based Transformers, leading to reduced performance and efficiency. Furthermore, they lack scene-specific sparsity optimization, resulting in information loss and a lower recall rate. To overcome these limitations, we propose the Scene Adaptive Sparse Transformer (SAST). SAST enables window-token co-sparsification, significantly enhancing fault tolerance and reducing computational overhead. Leveraging the innovative scoring and selection modules, along with the Masked Sparse Window Self-Attention, SAST showcases remarkable scene-aware adaptability: It focuses only on important objects and dynamically optimizes sparsity level according to scene complexity, maintaining a remarkable balance between performance and computational cost. The evaluation results show that SAST outperforms all other dense and sparse networks in both performance and efficiency on two large-scale event-based object detection datasets (1Mpx and Gen1). Code: https://github.com/Peterande/SAST
- Abstract(参考訳): 最近のTransformerベースのアプローチでは、イベントベースのオブジェクト検出タスクにおいて顕著なパフォーマンスを示しているが、その高い計算コストは、イベントカメラの低消費電力の利点を損なう。
画像ベースの作業は、スパーストランスフォーマーを導入して、これらのコストを削減しようとする。
しかし、これらの手法はトークンレベルのスペーシングの粒度とウィンドウベースのトランスフォーマーの効率のバランスが取れないので、イベントベースのオブジェクト検出に適用された場合、スパーシリティと適応性が不十分であり、性能と効率が低下する。
さらに、シーン固有の空間最適化が欠如し、情報損失とリコールレートが低下する。
これらの制約を克服するため,SAST (Scene Adaptive Sparse Transformer) を提案する。
SASTはウィンドウツーケンコスパーシフィケーションを可能にし、フォールトトレランスを大幅に向上し、計算オーバーヘッドを低減する。
Masked Sparse Window Self-Attentionとともに、革新的なスコアリングとセレクションモジュールを活用することで、SASTは、重要なオブジェクトのみに焦点を当て、シーンの複雑さに応じて空間レベルを動的に最適化し、パフォーマンスと計算コストの顕著なバランスを維持します。
評価の結果,SASTは2つの大規模イベントベースオブジェクト検出データセット(1MpxとGen1)の性能と効率の両方において,他の疎結合ネットワークよりも優れていた。
コード:https://github.com/Peterande/SAST
関連論文リスト
- AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation [29.34754905469359]
AVESFormerは、高速、効率的、軽量を同時に実現した最初のリアルタイム視覚効率変換器である。
AVESFormerはモデル性能を大幅に向上させ、S4では79.9%、MS3では57.9%、AVSSでは31.2%を達成した。
論文 参考訳(メタデータ) (2024-08-03T08:25:26Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba [11.400397931501338]
イベントカメラは、最小限の電力を消費しながら、低レイテンシで高ダイナミックレンジで環境光の変化を効率的に検出する。
イベントデータを処理する現在のアプローチでは、フレームベースの表現に変換することが多い。
Point Cloudは3D処理の一般的な表現であり、イベントカメラのスパースと非同期性に適合するのに適している。
提案するEventMambaは,最先端(SOTA)のフレームベース手法と比較しても,競合的な結果が得られる,効率的かつ効果的なPoint Cloudフレームワークである。
論文 参考訳(メタデータ) (2024-05-09T21:47:46Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Adaptive Sparse Convolutional Networks with Global Context Enhancement
for Faster Object Detection on Drone Images [26.51970603200391]
本稿では,スパース畳み込みに基づく検出ヘッドの最適化について検討する。
これは、小さなオブジェクトのコンテキスト情報の不十分な統合に悩まされる。
本稿では,グローバルな文脈拡張型適応スパース畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-25T14:42:50Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Event Transformer. A sparse-aware solution for efficient event data
processing [9.669942356088377]
Event Transformer(EvT)は、イベントデータプロパティを効果的に活用して、極めて効率的かつ正確なフレームワークである。
EvTは、アクションとジェスチャー認識のためのさまざまなイベントベースのベンチマークで評価される。
結果は、計算リソースを著しく少なくしながら、最先端の精度よりも優れているか同等の精度を示す。
論文 参考訳(メタデータ) (2022-04-07T10:49:17Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。