論文の概要: Exploiting Spatial Sparsity for Event Cameras with Visual Transformers
- arxiv url: http://arxiv.org/abs/2202.05054v1
- Date: Thu, 10 Feb 2022 14:26:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 15:54:46.771149
- Title: Exploiting Spatial Sparsity for Event Cameras with Visual Transformers
- Title(参考訳): 視覚トランスフォーマーを用いたイベントカメラにおける空間スパーシティの活用
- Authors: Zuowen Wang, Yuhuang Hu, Shih-Chii Liu
- Abstract要約: イベントカメラは、出力イベントの非同期ストリームを通じて、輝度の局所的な変化を報告します。
可変長入力を処理するために視覚変換器(ViT)アーキテクチャを提案する。
選択したアクティブパッチ上でViTモデルを微調整することにより、バックボーンに供給されるパッチの平均数を少なくとも50%削減できることを示す。
- 参考スコア(独自算出の注目度): 17.85156379534855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Event cameras report local changes of brightness through an asynchronous
stream of output events. Events are spatially sparse at pixel locations with
little brightness variation. We propose using a visual transformer (ViT)
architecture to leverage its ability to process a variable-length input. The
input to the ViT consists of events that are accumulated into time bins and
spatially separated into non-overlapping sub-regions called patches. Patches
are selected when the number of nonzero pixel locations within a sub-region is
above a threshold. We show that by fine-tuning a ViT model on the selected
active patches, we can reduce the average number of patches fed into the
backbone during the inference by at least 50% with only a minor drop (0.34%) of
the classification accuracy on the N-Caltech101 dataset. This reduction
translates into a decrease of 51% in Multiply-Accumulate (MAC) operations and
an increase of 46% in the inference speed using a server CPU.
- Abstract(参考訳): イベントカメラは、出力イベントの非同期ストリームを通じて、輝度の局所的な変化を報告します。
イベントは、明るさの変化が少ないピクセル位置で空間的にスパースである。
可変長入力の処理能力を活用するために視覚変換器(ViT)アーキテクチャを提案する。
vitへの入力は、タイムビンに蓄積されたイベントからなり、パッチと呼ばれる重複しないサブリージョンに空間的に分離される。
サブリージョン内の非ゼロ画素位置の数が閾値を超えると、パッチが選択される。
選択したアクティブパッチのViTモデルを微調整することにより,N-Caltech101データセットの分類精度をわずかに低下させる(0.34%)だけで,推論中にバックボーンに供給されるパッチの平均数を50%削減できることを示す。
この削減により、Multiply-Accumulate (MAC) 操作では51%が減少し、サーバCPUを使用した推論速度では46%が向上する。
関連論文リスト
- Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - PAUMER: Patch Pausing Transformer for Semantic Segmentation [3.3148826359547523]
画像の異なる部分の異なる計算量を用いて分割変換器の効率を向上する問題について検討する。
提案手法であるPAUMERは,最終的なデコーダに先立って,それ以上の計算を必要としないパッチの計算処理を行うことで,これを実現する。
論文 参考訳(メタデータ) (2023-11-01T15:32:11Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Cost Aggregation with 4D Convolutional Swin Transformer for Few-Shot
Segmentation [58.4650849317274]
Volumetric Aggregation with Transformers (VAT)は、数ショットセグメンテーションのためのコスト集約ネットワークである。
VATは、コスト集約が中心的な役割を果たすセマンティック対応のための最先端のパフォーマンスも達成する。
論文 参考訳(メタデータ) (2022-07-22T04:10:30Z) - How Many Events do You Need? Event-based Visual Place Recognition Using
Sparse But Varying Pixels [29.6328152991222]
イベントカメラ研究の潜在的な応用の1つは、ロボットのローカライゼーションのための視覚的位置認識である。
事象フレームに蓄積した画素位置における事象数に絶対的な差があることが、位置認識タスクに十分であることを示す。
我々は,Brisbane-Event-VPRデータセットに対する提案手法を,新たに提案した屋内QCR-Event-VPRデータセットとともに屋外運転シナリオで評価した。
論文 参考訳(メタデータ) (2022-06-28T00:24:12Z) - Toward Efficient Hyperspectral Image Processing inside Camera Pixels [1.6449390849183356]
ハイパースペクトルカメラは、数百のスペクトル帯が存在するため、大量のデータを生成する。
この問題を軽減するために,PIP (Processing-in-Pixel) 形式を提案する。
我々のPIP最適化カスタムCNN層は、入力データを効果的に圧縮し、データをHSI処理ユニットに送信するために必要な帯域幅を大幅に削減する。
論文 参考訳(メタデータ) (2022-03-11T01:06:02Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。