論文の概要: Descriptor: Face Detection Dataset for Programmable Threshold-Based Sparse-Vision
- arxiv url: http://arxiv.org/abs/2410.00368v1
- Date: Tue, 1 Oct 2024 03:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:06:43.692795
- Title: Descriptor: Face Detection Dataset for Programmable Threshold-Based Sparse-Vision
- Title(参考訳): Descriptor: プログラム可能な閾値ベーススパースビジョンのための顔検出データセット
- Authors: Riadul Islam, Sri Ranga Sai Krishna Tummala, Joey Mulé, Rohith Kankipati, Suraj Jalapally, Dhandeep Challagundla, Chad Howard, Ryan Robucci,
- Abstract要約: このデータセットは、Aff-Wild2で使用されるのと同じビデオから派生した顔検出タスクのための注釈付き、時間閾値ベースの視覚データセットである。
我々は,このリソースが時間差閾値に基づいて処理できるスマートセンサに基づく堅牢な視覚システムの開発を支援することを期待する。
- 参考スコア(独自算出の注目度): 0.8271394038014485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smart focal-plane and in-chip image processing has emerged as a crucial technology for vision-enabled embedded systems with energy efficiency and privacy. However, the lack of special datasets providing examples of the data that these neuromorphic sensors compute to convey visual information has hindered the adoption of these promising technologies. Neuromorphic imager variants, including event-based sensors, produce various representations such as streams of pixel addresses representing time and locations of intensity changes in the focal plane, temporal-difference data, data sifted/thresholded by temporal differences, image data after applying spatial transformations, optical flow data, and/or statistical representations. To address the critical barrier to entry, we provide an annotated, temporal-threshold-based vision dataset specifically designed for face detection tasks derived from the same videos used for Aff-Wild2. By offering multiple threshold levels (e.g., 4, 8, 12, and 16), this dataset allows for comprehensive evaluation and optimization of state-of-the-art neural architectures under varying conditions and settings compared to traditional methods. The accompanying tool flow for generating event data from raw videos further enhances accessibility and usability. We anticipate that this resource will significantly support the development of robust vision systems based on smart sensors that can process based on temporal-difference thresholds, enabling more accurate and efficient object detection and localization and ultimately promoting the broader adoption of low-power, neuromorphic imaging technologies. To support further research, we publicly released the dataset at \url{https://dx.doi.org/10.21227/bw2e-dj78}.
- Abstract(参考訳): スマート焦点面とチップ内画像処理は、エネルギー効率とプライバシーを備えたビジョン対応組込みシステムにとって重要な技術として登場した。
しかし、視覚情報を伝えるためにこれらのニューロモルフィックセンサーが計算したデータの例を提供する特別なデータセットが欠如していることは、これらの有望な技術の採用を妨げている。
イベントベースのセンサを含むニューロモルフィック・イメージラ変種は、焦点面における強度変化の時間的および位置を表す画素アドレスのストリーム、時間差データ、時間差に代表されるデータ、空間変換の適用後の画像データ、光フローデータ、および/または統計的表現などの様々な表現を生成する。
Aff-Wild2と同じビデオから得られる顔検出タスクに特化して設計された、注釈付き時間閾値に基づく視覚データセットを提供する。
このデータセットは、複数のしきい値レベル(例: 4, 8, 12, 16)を提供することで、従来の方法と比較してさまざまな条件と設定の下で、最先端のニューラルネットワークの包括的な評価と最適化を可能にする。
生のビデオからイベントデータを生成するための付随ツールフローにより、アクセシビリティとユーザビリティがさらに向上する。
このリソースは、時間差閾値に基づいて処理し、より正確で効率的な物体検出と局所化を可能にし、最終的には低消費電力でニューロモルフィックな画像技術の広範な採用を促進するスマートセンサに基づく堅牢な視覚システムの開発を支援することが期待されている。
さらなる研究を支援するため、我々はデータセットを \url{https://dx.doi.org/10.21227/bw2e-dj78} で公開しました。
関連論文リスト
- Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks [62.12107686529827]
本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。
提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。
主要な知見は,提案モデルが画像分類の精度を維持するだけでなく,EOのユースケースの約5%の精度向上を図っていることを示唆している。
論文 参考訳(メタデータ) (2024-07-24T09:11:34Z) - DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition [51.96660522869841]
DailyDVS-200は、イベントベースのアクション認識コミュニティに適したベンチマークデータセットである。
実世界のシナリオで200のアクションカテゴリをカバーし、47人の参加者によって記録され、22,000以上のイベントシーケンスで構成されている。
DailyDVS-200には14の属性がアノテートされており、記録されたアクションの詳細なキャラクタリゼーションが保証されている。
論文 参考訳(メタデータ) (2024-07-06T15:25:10Z) - Research, Applications and Prospects of Event-Based Pedestrian Detection: A Survey [10.494414329120909]
生物学的網膜にインスパイアされたイベントベースのカメラは、最小限の電力要求、無視できるレイテンシ、時間分解能、拡張可能なダイナミックレンジによって区別される最先端のセンサーへと進化してきた。
イベントベースのカメラは、高速撮像のシナリオにおいて、外部データ伝送を誘発し、動きのぼやけをなくすことによって制限に対処する。
本稿では,特に自律運転における研究と応用について概観する。
論文 参考訳(メタデータ) (2024-07-05T06:17:00Z) - A Novel Spike Transformer Network for Depth Estimation from Event Cameras via Cross-modality Knowledge Distillation [3.355813093377501]
イベントカメラは従来のデジタルカメラとは異なる動作をし、データを継続的にキャプチャし、時間、位置、光強度を符号化するバイナリスパイクを生成する。
これは、イベントカメラに適した革新的でスパイク対応のアルゴリズムの開発を必要とする。
スパイクカメラデータから深度推定を行うために,純粋にスパイク駆動のスパイク変圧器ネットワークを提案する。
論文 参考訳(メタデータ) (2024-04-26T11:32:53Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Augmenting Deep Learning Adaptation for Wearable Sensor Data through
Combined Temporal-Frequency Image Encoding [4.458210211781739]
本稿では、時間領域情報と周波数領域情報をシームレスに統合した、新しい修正繰り返しプロットベースの画像表現を提案する。
加速度センサを用いた活動認識データと事前訓練されたResNetモデルを用いて提案手法の評価を行い,既存の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-03T09:29:27Z) - Robust Data Hiding Using Inverse Gradient Attention [82.73143630466629]
データ隠蔽タスクでは、異なる耐久性を有するため、カバー画像の各ピクセルを別々に扱う必要がある。
Inverse Gradient Attention (IGA) を用いた新しい深層データ隠蔽方式を提案する。
実証的な実験により、提案モデルが2つの先行するデータセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-11-21T19:08:23Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Learning Temporally Invariant and Localizable Features via Data
Augmentation for Video Recognition [9.860323576151897]
画像認識において、空間的不変性を学ぶことは、認識性能と拡張性を改善する上で重要な要素である。
本研究では,ビデオの時間的不変性や時間的局所的特徴を学習するために,これらの戦略を時間的次元に拡張する。
新たな時間的データ拡張アルゴリズムに基づき,限られた訓練データのみを用いて映像認識性能を向上する。
論文 参考訳(メタデータ) (2020-08-13T06:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。