論文の概要: EA: An Event Autoencoder for High-Speed Vision Sensing
- arxiv url: http://arxiv.org/abs/2507.06459v1
- Date: Wed, 09 Jul 2025 00:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.423781
- Title: EA: An Event Autoencoder for High-Speed Vision Sensing
- Title(参考訳): EA: 高速ビジョンセンシングのためのイベントオートエンコーダ
- Authors: Riadul Islam, Joey Mulé, Dhandeep Challagundla, Shahmir Rizvi, Sean Carson,
- Abstract要約: イベントカメラは有望な代替手段を提供するが、スパースでノイズの多いイベントストリームによるオブジェクト検出には課題がある。
イベントデータを効率的に圧縮・再構成するイベントオートエンコーダアーキテクチャを提案する。
提案手法は, YOLO-v4モデルに匹敵する精度を達成し, パラメータを最大35.5倍に削減できることを示す。
- 参考スコア(独自算出の注目度): 0.9401004127785267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-speed vision sensing is essential for real-time perception in applications such as robotics, autonomous vehicles, and industrial automation. Traditional frame-based vision systems suffer from motion blur, high latency, and redundant data processing, limiting their performance in dynamic environments. Event cameras, which capture asynchronous brightness changes at the pixel level, offer a promising alternative but pose challenges in object detection due to sparse and noisy event streams. To address this, we propose an event autoencoder architecture that efficiently compresses and reconstructs event data while preserving critical spatial and temporal features. The proposed model employs convolutional encoding and incorporates adaptive threshold selection and a lightweight classifier to enhance recognition accuracy while reducing computational complexity. Experimental results on the existing Smart Event Face Dataset (SEFD) demonstrate that our approach achieves comparable accuracy to the YOLO-v4 model while utilizing up to $35.5\times$ fewer parameters. Implementations on embedded platforms, including Raspberry Pi 4B and NVIDIA Jetson Nano, show high frame rates ranging from 8 FPS up to 44.8 FPS. The proposed classifier exhibits up to 87.84x better FPS than the state-of-the-art and significantly improves event-based vision performance, making it ideal for low-power, high-speed applications in real-time edge computing.
- Abstract(参考訳): ロボット工学、自動運転車、産業自動化などの応用におけるリアルタイム認識には、高速な視覚センシングが不可欠である。
従来のフレームベースの視覚システムは、動きのぼやけ、高いレイテンシ、冗長なデータ処理に悩まされ、動的環境におけるパフォーマンスが制限される。
ピクセルレベルでの非同期の明るさ変化をキャプチャするイベントカメラは、有望な代替手段を提供するが、スパースでノイズの多いイベントストリームによるオブジェクト検出には課題がある。
そこで本稿では,重要な空間的特徴と時間的特徴を保ちながら,イベントデータを効率的に圧縮・再構成するイベントオートエンコーダアーキテクチャを提案する。
提案モデルは畳み込み符号化を採用し、適応しきい値選択と軽量な分類器を用いて、計算複雑性を低減しつつ認識精度を向上させる。
既存のSmart Event Face Dataset (SEFD)の実験結果によると、我々のアプローチは、最大35.5\times$ lessパラメータを使用しながら、YOLO-v4モデルに匹敵する精度を実現している。
Raspberry Pi 4BやNVIDIA Jetson Nanoなどの組み込みプラットフォームでの実装では、8 FPSから44.8 FPSまで高いフレームレートを示している。
提案した分類器は最先端技術よりも最大87.84倍優れたFPSを示し、イベントベースの視覚性能を大幅に向上し、リアルタイムエッジコンピューティングにおける低消費電力で高速なアプリケーションに最適である。
関連論文リスト
- TOFFE -- Temporally-binned Object Flow from Events for High-speed and Energy-Efficient Object Detection and Tracking [10.458676835674847]
イベントベースのカメラは、非常に高時間分解能と低消費電力で強度レベルの変化だけを捉えることで、生物学的にインスパイアされた解決策を提供する。
イベントベースの物体の動き推定を行うための軽量ハイブリッドフレームワークTOFFEを提案する。
論文 参考訳(メタデータ) (2025-01-21T20:20:34Z) - Low-Latency Scalable Streaming for Event-Based Vision [0.5242869847419834]
本稿では,Media Over QUICに基づくイベントベースデータに対するスケーラブルなストリーミング手法を提案する。
我々は、最先端のオブジェクト検出アプリケーションが、劇的なデータ損失に対して回復力があることを示す。
我々は、検出mAPを0.36まで下げる平均的な減少を観察した。
論文 参考訳(メタデータ) (2024-12-10T19:48:57Z) - A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation [3.355813093377501]
イベントカメラは、非同期バイナリスパイクとして光強度の時間変化を符号化する。
従来の画像に基づく深度推定手法には、従来のスパイク出力とラベル付きデータセットの不足が大きな課題となっている。
本研究では, スパイキングデータのユニークな特性を利用して, 深度推定のための新しいエネルギー効率の高いスパイク駆動型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T11:32:53Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - EV-Catcher: High-Speed Object Catching Using Low-latency Event-based
Neural Networks [107.62975594230687]
イベントカメラが優れており、高速移動物体の衝突位置を正確に推定するアプリケーションを実証する。
イベントデータを低レイテンシでエンコードするために,Binary Event History Image(BEHI)と呼ばれる軽量なイベント表現を導入する。
計算制約のある組込みプラットフォーム上でも最大13m/sの速さで, 異なる場所をターゲットとした球のキャッチにおいて, 81%の成功率を達成することができることを示す。
論文 参考訳(メタデータ) (2023-04-14T15:23:28Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。