論文の概要: Memory-Efficient Graph Convolutional Networks for Object Classification
and Detection with Event Cameras
- arxiv url: http://arxiv.org/abs/2307.14124v1
- Date: Wed, 26 Jul 2023 11:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 12:28:20.803597
- Title: Memory-Efficient Graph Convolutional Networks for Object Classification
and Detection with Event Cameras
- Title(参考訳): イベントカメラを用いた物体分類と検出のためのメモリ効率の高いグラフ畳み込みネットワーク
- Authors: Kamil Jeziorek, Andrea Pinna, Tomasz Kryjak
- Abstract要約: グラフ畳み込みネットワーク(GCN)は、イベントデータを解析するための有望なアプローチである。
本稿では,満足度の高い結果と比較的低いモデル複雑性を達成するために,両要因を共に検討する。
その結果,特徴抽出モジュールのパラメータ数を450倍に減らし,データ表現のサイズを4.5倍に減らした。
- 参考スコア(独自算出の注目度): 2.3311605203774395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in event camera research emphasize processing data in its
original sparse form, which allows the use of its unique features such as high
temporal resolution, high dynamic range, low latency, and resistance to image
blur. One promising approach for analyzing event data is through graph
convolutional networks (GCNs). However, current research in this domain
primarily focuses on optimizing computational costs, neglecting the associated
memory costs. In this paper, we consider both factors together in order to
achieve satisfying results and relatively low model complexity. For this
purpose, we performed a comparative analysis of different graph convolution
operations, considering factors such as execution time, the number of trainable
model parameters, data format requirements, and training outcomes. Our results
show a 450-fold reduction in the number of parameters for the feature
extraction module and a 4.5-fold reduction in the size of the data
representation while maintaining a classification accuracy of 52.3%, which is
6.3% higher compared to the operation used in state-of-the-art approaches. To
further evaluate performance, we implemented the object detection architecture
and evaluated its performance on the N-Caltech101 dataset. The results showed
an accuracy of 53.7 % mAP@0.5 and reached an execution rate of 82 graphs per
second.
- Abstract(参考訳): イベントカメラ研究の最近の進歩は、高時間分解能、高ダイナミックレンジ、低レイテンシ、画像ぼけに対する耐性など、独自の特徴を利用できるような、スパース形式のデータ処理を強調している。
イベントデータを解析するための有望なアプローチは、グラフ畳み込みネットワーク(GCN)を通じてである。
しかし、この領域における現在の研究は、主に計算コストの最適化と関連するメモリコストの無視に焦点を当てている。
本稿では,両因子を組み合わせることで,満足度の高い結果と比較的低いモデルの複雑さを実現する。
そこで本研究では,実行時間,トレーニング可能なモデルパラメータ数,データフォーマット要件,トレーニング結果などの要因を考慮した,異なるグラフ畳み込み操作の比較分析を行った。
その結果,特徴抽出モジュールのパラメータ数を450倍に減らし,データ表現のサイズを4.5倍に減らし,52.3%の分類精度を維持した。
さらに,オブジェクト検出アーキテクチャを実装し,N-Caltech101データセット上での性能評価を行った。
その結果、精度は53.7 % mAP@0.5で、実行速度は毎秒82グラフに達した。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - A Re-Parameterized Vision Transformer (ReVT) for Domain-Generalized
Semantic Segmentation [24.8695123473653]
セマンティックセグメンテーションのためのドメイン一般化のための拡張駆動型アプローチを提案する。
我々は、小型モデルで47.3%(先行技術:46.3%)、一般的なベンチマークデータセットで中型モデルで50.1%(先行技術:47.8%)の最先端mIoU性能を達成する。
論文 参考訳(メタデータ) (2023-08-25T12:06:00Z) - Data-Side Efficiencies for Lightweight Convolutional Neural Networks [4.5853328688992905]
4つのデータ属性 – クラス数,オブジェクト色,画像解像度,オブジェクトスケール – が,ニューラルネットワークモデルのサイズと効率に与える影響を示す。
本稿では,ロボット経路計画アプリケーションのための軽量モデルを選択するために,メトリクスと手法を適用した例を示す。
論文 参考訳(メタデータ) (2023-08-24T19:50:25Z) - CNN-transformer mixed model for object detection [3.5897534810405403]
本稿では,トランスを用いた畳み込みモジュールを提案する。
CNNが抽出した詳細特徴と変換器が抽出したグローバル特徴とを融合させることにより、モデルの認識精度を向上させることを目的とする。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用したRCNN[4]よりも4.6向上した。
論文 参考訳(メタデータ) (2022-12-13T16:35:35Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose
Estimation with Decoupled Rotation Mechanism [49.89268018642999]
6次元ポーズ推定のための効率的なカテゴリレベルの特徴抽出が可能な高速形状ベースネットワーク(FS-Net)を提案する。
提案手法は,カテゴリレベルおよびインスタンスレベルの6Dオブジェクトのポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-12T03:07:24Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - se(3)-TrackNet: Data-driven 6D Pose Tracking by Calibrating Image
Residuals in Synthetic Domains [12.71983073907091]
本研究では,長期6次元ポーズトラッキングのためのデータ駆動型最適化手法を提案する。
本研究の目的は、現在のRGB-D観測と、前回の推定値と対象物のモデルに基づいて条件付けされた合成画像から、最適な相対的なポーズを特定することである。
提案手法は, 実画像を用いて訓練した場合でも, 常に頑健な評価を達成し, 代替品よりも優れる。
論文 参考訳(メタデータ) (2020-07-27T21:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。