論文の概要: HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities
- arxiv url: http://arxiv.org/abs/2211.10754v4
- Date: Thu, 28 Sep 2023 17:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 23:06:31.939625
- Title: HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities
- Title(参考訳): HALSIE:画像とイベントの同時発散によるセグメンテーション学習へのハイブリッドアプローチ
- Authors: Shristi Das Biswas, Adarsh Kosta, Chamika Liyanagedera, Marco
Apolinario, Kaushik Roy
- Abstract要約: イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
- 参考スコア(独自算出の注目度): 6.543272301133159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras detect changes in per-pixel intensity to generate asynchronous
`event streams'. They offer great potential for accurate semantic map retrieval
in real-time autonomous systems owing to their much higher temporal resolution
and high dynamic range (HDR) compared to conventional cameras. However,
existing implementations for event-based segmentation suffer from sub-optimal
performance since these temporally dense events only measure the varying
component of a visual signal, limiting their ability to encode dense spatial
context compared to frames. To address this issue, we propose a hybrid
end-to-end learning framework HALSIE, utilizing three key concepts to reduce
inference cost by up to $20\times$ versus prior art while retaining similar
performance: First, a simple and efficient cross-domain learning scheme to
extract complementary spatio-temporal embeddings from both frames and events.
Second, a specially designed dual-encoder scheme with Spiking Neural Network
(SNN) and Artificial Neural Network (ANN) branches to minimize latency while
retaining cross-domain feature aggregation. Third, a multi-scale cue mixer to
model rich representations of the fused embeddings. These qualities of HALSIE
allow for a very lightweight architecture achieving state-of-the-art
segmentation performance on DDD-17, MVSEC, and DSEC-Semantic datasets with up
to $33\times$ higher parameter efficiency and favorable inference cost (17.9mJ
per cycle). Our ablation study also brings new insights into effective design
choices that can prove beneficial for research across other vision tasks.
- Abstract(参考訳): イベントカメラはピクセル単位の強度の変化を検出し、非同期のイベントストリームを生成する。
従来のカメラに比べて、時間分解能と高ダイナミックレンジ(HDR)が高いため、リアルタイム自律システムにおいて正確なセマンティックマップ検索が可能となる。
しかし、イベントベースセグメンテーションの既存の実装は、時間的に密集したイベントが視覚信号の様々な成分のみを測定するため、フレームに比べて密集した空間コンテキストをエンコードする能力を制限するため、準最適性能に悩まされている。
この問題に対処するために、我々は3つの鍵となる概念を活用し、推論コストを最大20ドルまで削減し、類似した性能を維持しながら、先行技術に対して20ドルまで削減するハイブリッドエンド・ツー・エンド学習フレームワークHALSIEを提案する。
次に,spyking neural network (snn) と artificial neural network (ann) を用いたデュアルエンコーダスキームによって,クロスドメイン機能集約を維持しながらレイテンシを最小化する。
第3に、融合埋め込みの豊かな表現をモデル化するマルチスケールキューミキサーである。
これらの特性により、ddd-17、mvsec、dsec-semanticデータセットで最先端のセグメンテーション性能を実現する非常に軽量なアーキテクチャが実現され、パラメータ効率が最大333\times$高くなり、1サイクルあたり17.9mjのよい推論コストが得られる。
私たちのアブレーション研究は、他のビジョンタスクをまたいだ研究に有益である、効果的なデザイン選択に対する新たな洞察をもたらします。
関連論文リスト
- Event-Stream Super Resolution using Sigma-Delta Neural Network [0.10923877073891444]
イベントカメラは、それらが収集するデータの低解像度で疎結合で非同期な性質のため、ユニークな課題を示す。
現在のイベント超解像アルゴリズムは、イベントカメラによって生成された異なるデータ構造に対して完全に最適化されていない。
バイナリスパイクをSigma Delta Neural Networks(SDNNs)と統合する手法を提案する
論文 参考訳(メタデータ) (2024-08-13T15:25:18Z) - EvGNN: An Event-driven Graph Neural Network Accelerator for Edge Vision [0.06752396542927405]
イベント駆動グラフニューラルネットワーク(GNN)は、スパースイベントベースのビジョンのための有望なソリューションとして登場した。
我々は,低フットプリント,超低レイテンシ,高精度エッジビジョンのための,最初のイベント駆動型GNNアクセラレータであるEvGNNを提案する。
論文 参考訳(メタデータ) (2024-04-30T12:18:47Z) - Ev-Edge: Efficient Execution of Event-based Vision Algorithms on Commodity Edge Platforms [10.104371980353973]
Ev-Edgeは、エッジプラットフォーム上でのイベントベースのビジョンシステムのパフォーマンスを高めるために、3つの重要な最適化を含むフレームワークである。
様々な自律ナビゲーションタスクのための最先端ネットワークでは、Ev-Edgeはレイテンシが1.28x-2.05x改善され、エネルギーが1.23x-2.15xになった。
論文 参考訳(メタデータ) (2024-03-23T04:44:55Z) - Accurate and Efficient Event-based Semantic Segmentation Using Adaptive Spiking Encoder-Decoder Network [20.05283214295881]
イベントベースのセンサから動的に非同期な信号を処理するための有望なソリューションとして、スパイキングニューラルネットワーク(SNN)が登場している。
大規模イベントベースセマンティックセマンティックセグメンテーションタスクのための効率的なスパイキングエンコーダデコーダネットワーク(SpikingEDN)を開発した。
適応しきい値を利用して、ストリーミング推論におけるネットワーク精度、空間性、ロバスト性を改善する。
論文 参考訳(メタデータ) (2023-04-24T07:12:50Z) - Hybrid SNN-ANN: Energy-Efficient Classification and Object Detection for
Event-Based Vision [64.71260357476602]
イベントベースの視覚センサは、画像フレームではなく、イベントストリームの局所的な画素単位の明るさ変化を符号化する。
イベントベースセンサーによる物体認識の最近の進歩は、ディープニューラルネットワークの変換によるものである。
本稿では、イベントベースのパターン認識とオブジェクト検出のためのディープニューラルネットワークのエンドツーエンドトレーニングのためのハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-06T23:45:58Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。