Fugu-MT 論文翻訳(概要): Benchmarking Conventional Vision Models on Neuromorphic Fall Detection and Action Recognition Dataset

論文の概要: Benchmarking Conventional Vision Models on Neuromorphic Fall Detection and Action Recognition Dataset

arxiv url: http://arxiv.org/abs/2201.12285v1
Date: Fri, 28 Jan 2022 17:54:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-31 14:37:43.170891
Title: Benchmarking Conventional Vision Models on Neuromorphic Fall Detection and Action Recognition Dataset
Title（参考訳）: ニューロモルフィック転倒検出と行動認識データセットのベンチマーク標準ビジョンモデル
Authors: Karthik Sivarama Krishnan and Koushik Sivarama Krishnan
Abstract要約: 本稿では、ニューロモルフィックな人間の行動認識データセット上での微調整された従来の視覚モデルの性能を評価・評価する。これらのモデルをDVS-R2+1D,DVS-CSN,DVS-C2D,DVS-SlowFast,DVS-X3D,DVS-MViTと呼ぶ。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neuromorphic vision-based sensors are gaining popularity in recent years with their ability to capture Spatio-temporal events with low power sensing. These sensors record events or spikes over traditional cameras which helps in preserving the privacy of the subject being recorded. These events are captured as per-pixel brightness changes and the output data stream is encoded with time, location, and pixel intensity change information. This paper proposes and benchmarks the performance of fine-tuned conventional vision models on neuromorphic human action recognition and fall detection datasets. The Spatio-temporal event streams from the Dynamic Vision Sensing cameras are encoded into a standard sequence image frames. These video frames are used for benchmarking conventional deep learning-based architectures. In this proposed approach, we fine-tuned the state-of-the-art vision models for this Dynamic Vision Sensing (DVS) application and named these models as DVS-R2+1D, DVS-CSN, DVS-C2D, DVS-SlowFast, DVS-X3D, and DVS-MViT. Upon comparing the performance of these models, we see the current state-of-the-art MViT based architecture DVS-MViT outperforms all the other models with an accuracy of 0.958 and an F-1 score of 0.958. The second best is the DVS-C2D with an accuracy of 0.916 and an F-1 score of 0.916. Third and Fourth are DVS-R2+1D and DVS-SlowFast with an accuracy of 0.875 and 0.833 and F-1 score of 0.875 and 0.861 respectively. DVS-CSN and DVS-X3D were the least performing models with an accuracy of 0.708 and 0.625 and an F1 score of 0.722 and 0.625 respectively.
Abstract（参考訳）: ニューロモルフィックな視覚ベースのセンサーは近年、低消費電力で時空間イベントをキャプチャする能力で人気が高まっている。これらのセンサーは、記録されている被写体のプライバシーを守るのに役立つ従来のカメラのイベントやスパイクを記録する。これらのイベントはピクセル毎の輝度変化としてキャプチャされ、出力データストリームは時間、位置、ピクセルの強度変化情報でエンコードされる。本稿では,ニューロモルフィックな人間の行動認識と転倒検出データセットに関する,微調整された従来の視覚モデルの性能を評価・評価する。ダイナミックビジョンセンシングカメラからの時空間イベントストリームは、標準シーケンス画像フレームに符号化される。これらのビデオフレームは、従来のディープラーニングベースのアーキテクチャのベンチマークに使用される。提案手法では,DVS-R2+1D,DVS-CSN,DVS-C2D,DVS-SlowFast,DVS-X3D,DVS-MViTと命名した。これらのモデルの性能を比較すると、現在の最先端のMViTベースのアーキテクチャDVS-MViTは0.958の精度とF-1スコアの0.958の精度で他のモデルよりも優れています。 2つ目はDVS-C2Dで、精度0.916、F-1スコア0.916である。第3と第4はDVS-R2+1DとDVS-SlowFastで、精度は0.875と0.833とF-1スコアは0.875と0.861である。 DVS-CSNとDVS-X3Dは0.708と0.625で、F1スコアは0.722と0.625である。

関連論文リスト

Rapid Salient Object Detection with Difference Convolutional Neural Networks [49.838283141381716]
本稿では,資源制約のあるデバイスにSODをリアルタイムに展開する上での課題について述べる。 SODにおける従来の知恵と現代のCNNの表現力を組み合わせたネットワーク設計を提案する。
論文参考訳（メタデータ） (2025-07-01T20:41:05Z)
FlashDepth: Real-time Streaming Video Depth Estimation at 2K Resolution [50.55876151973996]
ビデオ深度推定モデルは,(1)フレーム間の精度,(2)高解像度深度マップの作成,(3)リアルタイムストリーミングをサポートする。提案するFlashDepthは,2044x1148ストリーミングビデオの深さ推定を24FPSで行うことで,3つの要件をすべて満たす手法である。我々は、最先端の深度モデルに対する複数の未知のデータセットに対するアプローチを評価し、競争精度を維持しながら、境界のシャープネスと速度の点でそれらを上回ります。
論文参考訳（メタデータ） (2025-04-09T17:59:31Z)
EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera [17.61884467264023]
本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。本手法は,7Mパラメータのみの未確認被験者に対して62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
論文参考訳（メタデータ） (2025-03-16T09:08:02Z)
Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文参考訳（メタデータ） (2024-11-10T12:43:38Z)
Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。 1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文参考訳（メタデータ） (2024-06-25T10:20:44Z)
Neuromorphic Seatbelt State Detection for In-Cabin Monitoring with Event Cameras [0.932065750652415]
本研究は,シートベルト状態検出を含むイベントベースDMS技術を拡張するための概念実証を提供する。二つの分類課題において, 実検体と実検体でF1スコアが0.989, 0.944と同定された。
論文参考訳（メタデータ） (2023-08-15T14:27:46Z)
Traffic Sign Detection With Event Cameras and DCNN [0.0]
イベントカメラ(DVS)は、従来のカメラの代替またはサプリメントとして視覚システムで使用されている。本研究では,これらのセンサが,交通標識検出の一般的な課題に応用できるかどうかを検証した。
論文参考訳（メタデータ） (2022-07-27T08:01:54Z)
Auto-Weighted Layer Representation Based View Synthesis Distortion Estimation for 3-D Video Coding [78.53837757673597]
本稿では,自動重み付け層表現に基づくビュー合成歪み推定モデルを提案する。提案手法は, 精度, 効率の両面において, 最先端の手法よりも優れている。
論文参考訳（メタデータ） (2022-01-07T12:12:41Z)
Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in Autonomous Driving [74.74519047735916]
自動運転車(AV)における3次元ポーズ推定(HPE)は,多くの要因において他のユースケースと異なる。他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。
論文参考訳（メタデータ） (2021-12-22T18:57:16Z)
Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文参考訳（メタデータ） (2020-09-21T15:37:37Z)
Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文参考訳（メタデータ） (2020-07-15T11:30:40Z)
v2e: From Video Frames to Realistic DVS Events [16.562442770255032]
本稿では,高強度フレームからリアルな合成DVSイベントを生成するv2eツールボックスを提案する。リアルなDVSイベントは、制御されていない照明条件のトレーニングネットワークで有用である。
論文参考訳（メタデータ） (2020-06-13T21:06:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。