論文の概要: Chimera: A Block-Based Neural Architecture Search Framework for Event-Based Object Detection
- arxiv url: http://arxiv.org/abs/2412.19646v1
- Date: Fri, 27 Dec 2024 13:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:45.636737
- Title: Chimera: A Block-Based Neural Architecture Search Framework for Event-Based Object Detection
- Title(参考訳): Chimera: イベントベースのオブジェクト検出のためのブロックベースのニューラルネットワーク検索フレームワーク
- Authors: Diego A. Silva, Ahmed Elsheikh, Kamilya Smagulova, Mohammed E. Fouda, Ahmed M. Eltawil,
- Abstract要約: イベントベースのカメラは、高速ロバスト性や低消費電力といった利点を提供する。
Chimeは、イベントベースのオブジェクト検出用に特別に設計されたブロックベースのニューラルネットワークフレームワークである。
PErson Detection in Roboticsデータセットの結果は、最先端の最先端モデルに匹敵するパフォーマンスレベルを示した。
- 参考スコア(独自算出の注目度): 4.866548300593921
- License:
- Abstract: Event-based cameras are sensors that simulate the human eye, offering advantages such as high-speed robustness and low power consumption. Established Deep Learning techniques have shown effectiveness in processing event data. Chimera is a Block-Based Neural Architecture Search (NAS) framework specifically designed for Event-Based Object Detection, aiming to create a systematic approach for adapting RGB-domain processing methods to the event domain. The Chimera design space is constructed from various macroblocks, including Attention blocks, Convolutions, State Space Models, and MLP-mixer-based architectures, which provide a valuable trade-off between local and global processing capabilities, as well as varying levels of complexity. The results on the PErson Detection in Robotics (PEDRo) dataset demonstrated performance levels comparable to leading state-of-the-art models, alongside an average parameter reduction of 1.6 times.
- Abstract(参考訳): イベントベースのカメラは人間の眼をシミュレートするセンサーであり、高速ロバスト性や低消費電力といった利点を提供する。
イベントデータの処理に有効なディープラーニング技術が確立されている。
Chimeraは、イベントベースオブジェクト検出用に特別に設計されたブロックベースニューラルネットワーク検索(NAS)フレームワークで、イベントドメインにRGBドメイン処理メソッドを適用するための体系的なアプローチを作成することを目的としている。
Chimeraの設計空間は、アテンションブロック、コンボリューション、ステートスペースモデル、MLPミキサーベースのアーキテクチャなど、さまざまなマクロブロックから構築されている。
PErson Detection in Robotics (PEDRo)データセットの結果は、最先端のモデルに匹敵するパフォーマンスレベルを示し、平均パラメータは1.6倍になった。
関連論文リスト
- Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Persistent Homology Meets Object Unity: Object Recognition in Clutter [2.356908851188234]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって難しい問題である。
本稿では,深度画像から生成された点雲のための新しい記述子TOPSと,人間の推論にインスパイアされた認識フレームワークTHORを提案する。
THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度が大幅に向上している。
論文 参考訳(メタデータ) (2023-05-05T19:42:39Z) - Using Detection, Tracking and Prediction in Visual SLAM to Achieve
Real-time Semantic Mapping of Dynamic Scenarios [70.70421502784598]
RDS-SLAMは、一般的に使用されているIntel Core i7 CPUのみを使用して、動的シナリオのためのオブジェクトレベルでのセマンティックマップをリアルタイムで構築することができる。
我々は, TUM RGB-DデータセットにおけるRDS-SLAMを評価し, 動的シナリオにおいて, RDS-SLAMはフレームあたり30.3msで動作可能であることを示した。
論文 参考訳(メタデータ) (2022-10-10T11:03:32Z) - Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge
TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。
我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文 参考訳(メタデータ) (2022-04-07T08:53:18Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Real-World Anomaly Detection by using Digital Twin Systems and
Weakly-Supervised Learning [3.0100975935933567]
本稿では, 産業環境における異常検出に対する弱い制御手法を提案する。
これらのアプローチでは、Digital Twinを使用して、機械の通常の動作をシミュレートするトレーニングデータセットを生成する。
提案手法の性能を,実世界のデータセットに応用した様々な最先端の異常検出アルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-11-12T10:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。