論文の概要: Benchmarking Conventional Vision Models on Neuromorphic Fall Detection
and Action Recognition Dataset
- arxiv url: http://arxiv.org/abs/2201.12285v1
- Date: Fri, 28 Jan 2022 17:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:37:43.170891
- Title: Benchmarking Conventional Vision Models on Neuromorphic Fall Detection
and Action Recognition Dataset
- Title(参考訳): ニューロモルフィック転倒検出と行動認識データセットのベンチマーク標準ビジョンモデル
- Authors: Karthik Sivarama Krishnan and Koushik Sivarama Krishnan
- Abstract要約: 本稿では、ニューロモルフィックな人間の行動認識データセット上での微調整された従来の視覚モデルの性能を評価・評価する。
これらのモデルをDVS-R2+1D,DVS-CSN,DVS-C2D,DVS-SlowFast,DVS-X3D,DVS-MViTと呼ぶ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neuromorphic vision-based sensors are gaining popularity in recent years with
their ability to capture Spatio-temporal events with low power sensing. These
sensors record events or spikes over traditional cameras which helps in
preserving the privacy of the subject being recorded. These events are captured
as per-pixel brightness changes and the output data stream is encoded with
time, location, and pixel intensity change information. This paper proposes and
benchmarks the performance of fine-tuned conventional vision models on
neuromorphic human action recognition and fall detection datasets. The
Spatio-temporal event streams from the Dynamic Vision Sensing cameras are
encoded into a standard sequence image frames. These video frames are used for
benchmarking conventional deep learning-based architectures. In this proposed
approach, we fine-tuned the state-of-the-art vision models for this Dynamic
Vision Sensing (DVS) application and named these models as DVS-R2+1D, DVS-CSN,
DVS-C2D, DVS-SlowFast, DVS-X3D, and DVS-MViT. Upon comparing the performance of
these models, we see the current state-of-the-art MViT based architecture
DVS-MViT outperforms all the other models with an accuracy of 0.958 and an F-1
score of 0.958. The second best is the DVS-C2D with an accuracy of 0.916 and an
F-1 score of 0.916. Third and Fourth are DVS-R2+1D and DVS-SlowFast with an
accuracy of 0.875 and 0.833 and F-1 score of 0.875 and 0.861 respectively.
DVS-CSN and DVS-X3D were the least performing models with an accuracy of 0.708
and 0.625 and an F1 score of 0.722 and 0.625 respectively.
- Abstract(参考訳): ニューロモルフィックな視覚ベースのセンサーは近年、低消費電力で時空間イベントをキャプチャする能力で人気が高まっている。
これらのセンサーは、記録されている被写体のプライバシーを守るのに役立つ従来のカメラのイベントやスパイクを記録する。
これらのイベントはピクセル毎の輝度変化としてキャプチャされ、出力データストリームは時間、位置、ピクセルの強度変化情報でエンコードされる。
本稿では,ニューロモルフィックな人間の行動認識と転倒検出データセットに関する,微調整された従来の視覚モデルの性能を評価・評価する。
ダイナミックビジョンセンシングカメラからの時空間イベントストリームは、標準シーケンス画像フレームに符号化される。
これらのビデオフレームは、従来のディープラーニングベースのアーキテクチャのベンチマークに使用される。
提案手法では,DVS-R2+1D,DVS-CSN,DVS-C2D,DVS-SlowFast,DVS-X3D,DVS-MViTと命名した。
これらのモデルの性能を比較すると、現在の最先端のMViTベースのアーキテクチャDVS-MViTは0.958の精度とF-1スコアの0.958の精度で他のモデルよりも優れています。
2つ目はDVS-C2Dで、精度0.916、F-1スコア0.916である。
第3と第4はDVS-R2+1DとDVS-SlowFastで、精度は0.875と0.833とF-1スコアは0.875と0.861である。
DVS-CSNとDVS-X3Dは0.708と0.625で、F1スコアは0.722と0.625である。
関連論文リスト
- Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - Neuromorphic Seatbelt State Detection for In-Cabin Monitoring with Event
Cameras [0.932065750652415]
本研究は,シートベルト状態検出を含むイベントベースDMS技術を拡張するための概念実証を提供する。
二つの分類課題において, 実検体と実検体でF1スコアが0.989, 0.944と同定された。
論文 参考訳(メタデータ) (2023-08-15T14:27:46Z) - Traffic Sign Detection With Event Cameras and DCNN [0.0]
イベントカメラ(DVS)は、従来のカメラの代替またはサプリメントとして視覚システムで使用されている。
本研究では,これらのセンサが,交通標識検出の一般的な課題に応用できるかどうかを検証した。
論文 参考訳(メタデータ) (2022-07-27T08:01:54Z) - Auto-Weighted Layer Representation Based View Synthesis Distortion
Estimation for 3-D Video Coding [78.53837757673597]
本稿では,自動重み付け層表現に基づくビュー合成歪み推定モデルを提案する。
提案手法は, 精度, 効率の両面において, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-01-07T12:12:41Z) - Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in
Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。
他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。
本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:57:16Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z) - v2e: From Video Frames to Realistic DVS Events [16.562442770255032]
本稿では,高強度フレームからリアルな合成DVSイベントを生成するv2eツールボックスを提案する。
リアルなDVSイベントは、制御されていない照明条件のトレーニングネットワークで有用である。
論文 参考訳(メタデータ) (2020-06-13T21:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。