論文の概要: Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras
- arxiv url: http://arxiv.org/abs/2211.12324v1
- Date: Tue, 22 Nov 2022 15:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:29:18.596854
- Title: Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras
- Title(参考訳): イベントカメラを用いた非同期グラフに基づく物体検出の限界化
- Authors: Daniel Gehrig and Davide Scaramuzza
- Abstract要約: 低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
- 参考スコア(独自算出の注目度): 62.70541164894224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art machine-learning methods for event cameras treat events as
dense representations and process them with conventional deep neural networks.
Thus, they fail to maintain the sparsity and asynchronous nature of event data,
thereby imposing significant computation and latency constraints on downstream
systems. A recent line of work tackles this issue by modeling events as
spatiotemporally evolving graphs that can be efficiently and asynchronously
processed using graph neural networks. These works showed impressive
computation reductions, yet their accuracy is still limited by the small scale
and shallow depth of their network, both of which are required to reduce
computation. In this work, we break this glass ceiling by introducing several
architecture choices which allow us to scale the depth and complexity of such
models while maintaining low computation. On object detection tasks, our
smallest model shows up to 3.7 times lower computation, while outperforming
state-of-the-art asynchronous methods by 7.4 mAP. Even when scaling to larger
model sizes, we are 13% more efficient than state-of-the-art while
outperforming it by 11.5 mAP. As a result, our method runs 3.7 times faster
than a dense graph neural network, taking only 8.4 ms per forward pass. This
opens the door to efficient, and accurate object detection in edge-case
scenarios.
- Abstract(参考訳): イベントカメラの最先端機械学習手法は、イベントを高密度表現として扱い、従来のディープニューラルネットワークで処理する。
したがって、イベントデータのスパーシリティと非同期性を維持することができず、ダウンストリームシステムに重大な計算とレイテンシの制約を課すことになる。
最近の研究は、グラフニューラルネットワークを使用して効率的に非同期に処理できる時空間的に進化するグラフとしてイベントをモデル化することでこの問題に対処している。
これらの研究は驚くべき計算の削減を示したが、その精度はネットワークの小さなスケールと浅い深さによって制限され、どちらも計算の削減に必要である。
本研究では,低計算を維持しながら,そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択を導入することで,ガラス天井を破る。
オブジェクト検出タスクでは、最小のモデルが最大3.7倍の計算量を示し、非同期メソッドを7.4mapで上回っている。
より大きなモデルサイズにスケールしても、最先端の11.5mAPよりも13%効率がよいのです。
その結果、この手法は密度の高いグラフニューラルネットワークよりも3.7倍高速で、フォワードパスあたり8.4ミリ秒しかかからない。
これにより、エッジケースシナリオにおける効率的で正確なオブジェクト検出への扉が開く。
関連論文リスト
- Memory-Efficient Graph Convolutional Networks for Object Classification
and Detection with Event Cameras [2.3311605203774395]
グラフ畳み込みネットワーク(GCN)は、イベントデータを解析するための有望なアプローチである。
本稿では,満足度の高い結果と比較的低いモデル複雑性を達成するために,両要因を共に検討する。
その結果,特徴抽出モジュールのパラメータ数を450倍に減らし,データ表現のサイズを4.5倍に減らした。
論文 参考訳(メタデータ) (2023-07-26T11:44:44Z) - AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。
AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文 参考訳(メタデータ) (2022-03-31T16:21:12Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - EDNet: Efficient Disparity Estimation with Cost Volume Combination and
Attention-based Spatial Residual [17.638034176859932]
既存の分散度推定は、主に4D結合ボリュームを活用し、分散回帰のための非常に深い3D畳み込みニューラルネットワーク(CNN)を構築する。
本稿では,EDNetというネットワークを効率よく分散推定する手法を提案する。
Scene FlowとKITTIデータセットの実験は、EDNetが以前の3D CNNベースの作業より優れていることを示している。
論文 参考訳(メタデータ) (2020-10-26T04:49:44Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - Pose Refinement Graph Convolutional Network for Skeleton-based Action
Recognition [21.720764076798904]
本稿では,行動認識のための高効率なグラフ畳み込みネットワークを提案する。
我々のネットワークはパラメータを86%-93%削減し、浮動小数点演算を89%-96%削減する。
正確性、メモリフットプリント、処理時間のトレードオフをはるかに改善し、ロボティクスアプリケーションに適している。
論文 参考訳(メタデータ) (2020-10-14T19:06:23Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z) - Compression of descriptor models for mobile applications [26.498907514590165]
深層ニューラルネットワークにおける計算コスト,モデルサイズ,マッチング精度のトレードオフを評価する。
我々は、深度的に分離可能な層を用いることで、学習重量の顕著な冗長性を観察する。
本稿では,標準的な畳み込みと奥行き分離可能な畳み込みを補間する手段を提供する,畳み込み-Depthwise-Pointwise(CDP)層を提案する。
論文 参考訳(メタデータ) (2020-01-09T17:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。