論文の概要: Towards Adaptive Human-centric Video Anomaly Detection: A Comprehensive Framework and A New Benchmark
- arxiv url: http://arxiv.org/abs/2408.14329v2
- Date: Wed, 19 Mar 2025 18:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:51.744049
- Title: Towards Adaptive Human-centric Video Anomaly Detection: A Comprehensive Framework and A New Benchmark
- Title(参考訳): 適応型人間中心ビデオ異常検出に向けて:包括的フレームワークと新しいベンチマーク
- Authors: Armin Danesh Pazho, Shanle Yao, Ghazal Alinezhad Noghre, Babak Rahimi Ardabili, Vinit Katariya, Hamed Tabkhi,
- Abstract要約: 人間中心型ビデオ異常検出(VAD)は、正常から逸脱する人間の行動を特定することを目的としている。
本稿では,Human-centric privacy-enhanced Video Anomaly Detection(Human-centric privacy-enhanced Video Anomaly Detection)データセットと,新しい教師なし連続異常学習フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 2.473948454680334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-centric Video Anomaly Detection (VAD) aims to identify human behaviors that deviate from normal. At its core, human-centric VAD faces substantial challenges, such as the complexity of diverse human behaviors, the rarity of anomalies, and ethical constraints. These challenges limit access to high-quality datasets and highlight the need for a dataset and framework supporting continual learning. Moving towards adaptive human-centric VAD, we introduce the HuVAD (Human-centric privacy-enhanced Video Anomaly Detection) dataset and a novel Unsupervised Continual Anomaly Learning (UCAL) framework. UCAL enables incremental learning, allowing models to adapt over time, bridging traditional training and real-world deployment. HuVAD prioritizes privacy by providing de-identified annotations and includes seven indoor/outdoor scenes, offering over 5x more pose-annotated frames than previous datasets. Our standard and continual benchmarks, utilize a comprehensive set of metrics, demonstrating that UCAL-enhanced models achieve superior performance in 82.14% of cases, setting a new state-of-the-art (SOTA). The dataset can be accessed at https://github.com/TeCSAR-UNCC/HuVAD.
- Abstract(参考訳): 人間中心型ビデオ異常検出(VAD)は、正常から逸脱する人間の行動を特定することを目的としている。
人間中心のVADの中核は、多様な人間の行動の複雑さ、異常の希少性、倫理的制約など、重大な課題に直面している。
これらの課題は、高品質なデータセットへのアクセスを制限し、継続的な学習をサポートするデータセットとフレームワークの必要性を強調します。
適応型人間中心型VADに向けて,Human-centric privacy-enhanced Video Anomaly Detection(Human-centric privacy-enhanced Video Anomaly Detection)データセットと,新しいUnsupervised Continual Anomaly Learning(UCAL)フレームワークを導入する。
UCALはインクリメンタルな学習を可能にし、モデルが時間とともに適応し、従来のトレーニングと実際のデプロイメントをブリッジする。
HuVADは、未識別のアノテーションを提供することでプライバシを優先し、7つの屋内/屋外シーンを含み、以前のデータセットの5倍以上のポーズアノテートフレームを提供する。
我々の標準ベンチマークと継続ベンチマークでは、UCALが強化したモデルが82.14%のケースで優れたパフォーマンスを達成し、新しい最先端(SOTA)を設定できることを示した。
データセットはhttps://github.com/TeCSAR-UNCC/HuVADでアクセスできる。
関連論文リスト
- POET: Prompt Offset Tuning for Continual Human Action Adaptation [61.63831623094721]
ユーザと開発者に対して,デバイスモデルに新たなアクションクラスを継続的に追加することで,エクスペリエンスをパーソナライズする機能の提供を目標としています。
我々はこれをプライバシーに配慮した数発の連続的な行動認識として定式化する。
本稿では,新しい時間的学習可能なプロンプトチューニング手法を提案し,グラフニューラルネットワークにこのようなプロンプトチューニングを適用した。
論文 参考訳(メタデータ) (2025-04-25T04:11:24Z) - A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM [1.7051307941715268]
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視に不可欠である。
既存のVADモデルは学習された通常のパターンに依存しており、多様な環境に適用することは困難である。
本研究では,C-VAD技術とAnyAnomalyモデルを提案する。
論文 参考訳(メタデータ) (2025-03-06T14:52:34Z) - Human-Centric Video Anomaly Detection Through Spatio-Temporal Pose Tokenization and Transformer [2.3349787245442966]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要な課題である。
人間中心のVADは、人間の振る舞いのバリエーション、データの潜在的なバイアス、および人間の被写体に関連するプライバシーに関する懸念など、さらなる複雑さに直面している。
近年の進歩は、プライバシの懸念を緩和し、外観バイアスを低減し、背景干渉を最小限に抑えるために、人間のポーズを高レベルな特徴として活用するポーズベースのVADに焦点を当てている。
本稿では,人間中心のポーズに基づくVADに特化して設計された,新しいトランスフォーマーベースのアーキテクチャであるSPARTAを紹介する。
論文 参考訳(メタデータ) (2024-08-27T16:40:14Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - PoseBench: Benchmarking the Robustness of Pose Estimation Models under Corruptions [57.871692507044344]
ポース推定は、単眼画像を用いて人や動物の解剖学的キーポイントを正確に同定することを目的としている。
現在のモデルは一般的に、クリーンなデータに基づいてトレーニングされ、テストされる。
実世界の腐敗に対するポーズ推定モデルの堅牢性を評価するためのベンチマークであるPoseBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-20T14:40:17Z) - Federated Face Forgery Detection Learning with Personalized Representation [63.90408023506508]
ディープジェネレータ技術は、区別がつかない高品質のフェイクビデオを制作し、深刻な社会的脅威をもたらす可能性がある。
従来の偽造検出手法は、データを直接集中的に訓練する。
本稿では,個人化表現を用いた新しいフェデレーション顔偽造検出学習を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:20:30Z) - BaboonLand Dataset: Tracking Primates in the Wild and Automating Behaviour Recognition from Drone Videos [0.8074955699721389]
本研究では,バブーン検出,追跡,行動認識のための,ドローンビデオからの新たなデータセットを提案する。
Baboon検出データセットは、ドローンビデオにすべてのbaboonをバウンディングボックスで手動でアノテートすることで作成されている。
行動認識データセットは、各動物を中心としたビデオサブリージョンであるミニシーンにトラックを変換することで生成される。
論文 参考訳(メタデータ) (2024-05-27T23:09:37Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - EGOFALLS: A visual-audio dataset and benchmark for fall detection using
egocentric cameras [0.16317061277456998]
転倒は重大であり、高齢者のような脆弱な人口にとって致命的である。
これまでの研究は、単一のセンサー、画像、加速度計によるデータキャプチャによるフォールの検出に対処してきた。
本研究では,エゴセントリックカメラが撮影したビデオから抽出したマルチモーダルディスクリプタを利用する。
論文 参考訳(メタデータ) (2023-09-08T20:14:25Z) - ADG-Pose: Automated Dataset Generation for Real-World Human Pose
Estimation [2.4956060473718407]
ADG-Poseは、現実世界の人間のポーズ推定のためのデータセットを自動的に生成する手法である。
本稿では,実世界の人間のポーズ推定のためのデータセットを自動生成するADG-Poseについて述べる。
論文 参考訳(メタデータ) (2022-02-01T20:51:58Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - Vision-based Behavioral Recognition of Novelty Preference in Pigs [1.837722971703011]
研究データの行動スコアリングは、ドメイン固有のメトリクスを抽出するために重要であるが、人間の労働力を用いて膨大な量の情報を分析する能力にボトルネックがある。
ディープラーニングは、このボトルネックを緩和するための重要な進歩として広く見なされている。
我々は,手動スコアリングのプロセスを緩和するために,ディープラーニングを活用できる分野を1つ同定する。
論文 参考訳(メタデータ) (2021-06-23T06:10:34Z) - Continual Learning for Blind Image Quality Assessment [80.55119990128419]
ブラインド画像品質評価(BIQA)モデルは、サブポピュレーションシフトに継続的に適応できない。
最近の研究では、利用可能なすべての人間評価のIQAデータセットの組み合わせに関するBIQAメソッドのトレーニングが推奨されている。
モデルがIQAデータセットのストリームから継続的に学習するBIQAの継続的学習を策定する。
論文 参考訳(メタデータ) (2021-02-19T03:07:01Z) - Towards Accurate Human Pose Estimation in Videos of Crowded Scenes [134.60638597115872]
我々は、時間的文脈を利用して新しいデータを収集する視点から、混雑したシーンのビデオにおける人間のポーズ推定を改善することに注力する。
あるフレームについては、過去のフレームから過去のポーズを転送し、その後のフレームから現在のフレームへ未来的なポーズを後退させ、ビデオにおける安定した人間のポーズ推定に繋がる。
このようにして、HIEチャレンジのテストデータセット上で、13本中7本、56.33本の平均w_APで最高の性能を達成する。
論文 参考訳(メタデータ) (2020-10-16T13:19:11Z) - The AVA-Kinetics Localized Human Actions Video Dataset [124.41706958756049]
本稿では,AVA-Kineticsによる人行動ビデオデータセットについて述べる。
データセットは、AVAアノテーションプロトコルを使用して、Kinetics-700データセットのビデオをアノテートすることで収集される。
データセットには、キーフレーム内の各人間のための80のAVAアクションクラスに注釈付けされた230万以上のクリップが含まれている。
論文 参考訳(メタデータ) (2020-05-01T04:17:14Z) - DeeperForensics-1.0: A Large-Scale Dataset for Real-World Face Forgery
Detection [93.24684159708114]
DeeperForensics-1.0は、これまでで最大の顔偽造検出データセットであり、合計で1760万フレームの6万本のビデオで構成されている。
生成されたビデオの品質は、既存のデータセットよりも優れており、ユーザ研究によって検証されている。
このベンチマークには隠れたテストセットがあり、人間の評価において高い認識スコアを達成する操作されたビデオを含んでいる。
論文 参考訳(メタデータ) (2020-01-09T14:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。