論文の概要: Benchmarking Conventional Vision Models on Neuromorphic Fall Detection
and Action Recognition Dataset
- arxiv url: http://arxiv.org/abs/2201.12285v1
- Date: Fri, 28 Jan 2022 17:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:37:43.170891
- Title: Benchmarking Conventional Vision Models on Neuromorphic Fall Detection
and Action Recognition Dataset
- Title(参考訳): ニューロモルフィック転倒検出と行動認識データセットのベンチマーク標準ビジョンモデル
- Authors: Karthik Sivarama Krishnan and Koushik Sivarama Krishnan
- Abstract要約: 本稿では、ニューロモルフィックな人間の行動認識データセット上での微調整された従来の視覚モデルの性能を評価・評価する。
これらのモデルをDVS-R2+1D,DVS-CSN,DVS-C2D,DVS-SlowFast,DVS-X3D,DVS-MViTと呼ぶ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neuromorphic vision-based sensors are gaining popularity in recent years with
their ability to capture Spatio-temporal events with low power sensing. These
sensors record events or spikes over traditional cameras which helps in
preserving the privacy of the subject being recorded. These events are captured
as per-pixel brightness changes and the output data stream is encoded with
time, location, and pixel intensity change information. This paper proposes and
benchmarks the performance of fine-tuned conventional vision models on
neuromorphic human action recognition and fall detection datasets. The
Spatio-temporal event streams from the Dynamic Vision Sensing cameras are
encoded into a standard sequence image frames. These video frames are used for
benchmarking conventional deep learning-based architectures. In this proposed
approach, we fine-tuned the state-of-the-art vision models for this Dynamic
Vision Sensing (DVS) application and named these models as DVS-R2+1D, DVS-CSN,
DVS-C2D, DVS-SlowFast, DVS-X3D, and DVS-MViT. Upon comparing the performance of
these models, we see the current state-of-the-art MViT based architecture
DVS-MViT outperforms all the other models with an accuracy of 0.958 and an F-1
score of 0.958. The second best is the DVS-C2D with an accuracy of 0.916 and an
F-1 score of 0.916. Third and Fourth are DVS-R2+1D and DVS-SlowFast with an
accuracy of 0.875 and 0.833 and F-1 score of 0.875 and 0.861 respectively.
DVS-CSN and DVS-X3D were the least performing models with an accuracy of 0.708
and 0.625 and an F1 score of 0.722 and 0.625 respectively.
- Abstract(参考訳): ニューロモルフィックな視覚ベースのセンサーは近年、低消費電力で時空間イベントをキャプチャする能力で人気が高まっている。
これらのセンサーは、記録されている被写体のプライバシーを守るのに役立つ従来のカメラのイベントやスパイクを記録する。
これらのイベントはピクセル毎の輝度変化としてキャプチャされ、出力データストリームは時間、位置、ピクセルの強度変化情報でエンコードされる。
本稿では,ニューロモルフィックな人間の行動認識と転倒検出データセットに関する,微調整された従来の視覚モデルの性能を評価・評価する。
ダイナミックビジョンセンシングカメラからの時空間イベントストリームは、標準シーケンス画像フレームに符号化される。
これらのビデオフレームは、従来のディープラーニングベースのアーキテクチャのベンチマークに使用される。
提案手法では,DVS-R2+1D,DVS-CSN,DVS-C2D,DVS-SlowFast,DVS-X3D,DVS-MViTと命名した。
これらのモデルの性能を比較すると、現在の最先端のMViTベースのアーキテクチャDVS-MViTは0.958の精度とF-1スコアの0.958の精度で他のモデルよりも優れています。
2つ目はDVS-C2Dで、精度0.916、F-1スコア0.916である。
第3と第4はDVS-R2+1DとDVS-SlowFastで、精度は0.875と0.833とF-1スコアは0.875と0.861である。
DVS-CSNとDVS-X3Dは0.708と0.625で、F1スコアは0.722と0.625である。
関連論文リスト
- Neuromorphic Seatbelt State Detection for In-Cabin Monitoring with Event
Cameras [0.932065750652415]
本研究は,シートベルト状態検出を含むイベントベースDMS技術を拡張するための概念実証を提供する。
二つの分類課題において, 実検体と実検体でF1スコアが0.989, 0.944と同定された。
論文 参考訳(メタデータ) (2023-08-15T14:27:46Z) - Traffic Sign Detection With Event Cameras and DCNN [0.0]
イベントカメラ(DVS)は、従来のカメラの代替またはサプリメントとして視覚システムで使用されている。
本研究では,これらのセンサが,交通標識検出の一般的な課題に応用できるかどうかを検証した。
論文 参考訳(メタデータ) (2022-07-27T08:01:54Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Auto-Weighted Layer Representation Based View Synthesis Distortion
Estimation for 3-D Video Coding [78.53837757673597]
本稿では,自動重み付け層表現に基づくビュー合成歪み推定モデルを提案する。
提案手法は, 精度, 効率の両面において, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-01-07T12:12:41Z) - Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in
Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。
他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。
本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:57:16Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z) - v2e: From Video Frames to Realistic DVS Events [16.562442770255032]
本稿では,高強度フレームからリアルな合成DVSイベントを生成するv2eツールボックスを提案する。
リアルなDVSイベントは、制御されていない照明条件のトレーニングネットワークで有用である。
論文 参考訳(メタデータ) (2020-06-13T21:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。