論文の概要: SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning
with Human Object Interactions
- arxiv url: http://arxiv.org/abs/2207.11838v1
- Date: Sun, 24 Jul 2022 22:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:31:41.683034
- Title: SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning
with Human Object Interactions
- Title(参考訳): savchoi: 人間のオブジェクトインタラクションを用いた密集ビデオキャプションによる疑わしい行動の検出
- Authors: Ansh Mittal, Shuvam Ghosal, Rishibha Bansal, Dat Ngyuyen
- Abstract要約: 筆者らは,監視ビデオにおける不審な活動を検出し,要約するための新しい手法を提案する。
また、UCF-Crimeビデオデータセットの真理の要約も作成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting suspicious activities in surveillance videos has been a
longstanding problem, which can further lead to difficulties in detecting
crimes. The authors propose a novel approach for detecting and summarizing the
suspicious activities going on in the surveillance videos. They also create
ground truth summaries for the UCF-Crime video dataset. Further, the authors
test existing state-of-the-art algorithms for Dense Video Captioning for a
subset of this dataset and propose a model for this task by leveraging
Human-Object Interaction models for the Visual features. They observe that this
formulation for Dense Captioning achieves large gains over earlier approaches
by a significant margin. The authors also perform an ablative analysis of the
dataset and the model and report their findings.
- Abstract(参考訳): 監視ビデオにおける不審な行為の検出は長年の問題であり、さらに犯罪の検出が困難になる可能性がある。
筆者らは,監視ビデオにおける不審な活動を検出し,要約するための新しい手法を提案する。
また、UCF-Crimeビデオデータセットの真理要約を作成する。
さらに、著者らは、このデータセットのサブセットに対して、Dense Video Captioningの既存の最先端アルゴリズムをテストし、視覚機能にヒューマンオブジェクトインタラクションモデルを活用することで、このタスクのモデルを提案する。
彼らは、このDense Captioningの定式化が、以前のアプローチよりもかなりの差で大きな利益を得ると考えている。
また,著者らは,データセットとモデルについてアブレーション分析を行い,その結果を報告する。
関連論文リスト
- On the Inherent Robustness of One-Stage Object Detection against Out-of-Distribution Data [6.7236795813629]
画像データ中の未知物体を検出する新しい検出アルゴリズムを提案する。
モデルによって抽出された特徴に対する次元の呪いの影響を軽減するために、教師付き次元削減技術を利用する。
これは高解像度の特徴マップを用いて、教師なしの方法で潜在的に未知の物体を識別する。
論文 参考訳(メタデータ) (2024-11-07T10:15:25Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Towards Surveillance Video-and-Language Understanding: New Dataset,
Baselines, and Challenges [10.809558232493236]
本稿では,監視ビデオ・言語理解の新しい研究方向を提案し,最初のマルチモーダル監視ビデオデータセットを構築した。
実世界の監視データセットであるUCF-Crimeに,詳細なイベント内容とタイミングを手作業でアノテートする。
我々は、この新しく作成されたデータセット上で、4つのマルチモーダルタスクのためのSOTAモデルをベンチマークし、監視ビデオおよび言語理解のための新しいベースラインとして機能する。
論文 参考訳(メタデータ) (2023-09-25T07:46:56Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - A Comparative Review of Recent Few-Shot Object Detection Algorithms [0.0]
ラベル付きデータで新しいクラスに適応するために学習するオブジェクトの少ない検出は、命令的で長期にわたる問題である。
近年の研究では、ターゲットドメインを監督せずに追加データセットに暗黙の手がかりを使って、少数のショット検出器が堅牢なタスク概念を洗練させる方法が研究されている。
論文 参考訳(メタデータ) (2021-10-30T07:57:11Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Uncertainty-aware Joint Salient Object and Camouflaged Object Detection [43.01556978979627]
本論文では, 相反する情報を活用し, 対流物体検出と迷彩物体検出の両方の検出能力を高めるパラダイムを提案する。
この2つのタスクの矛盾する属性を明示的にモデル化する類似度測度モジュールを導入する。
両タスクのデータセットにおけるラベル付けの不確実性を考慮して,高次類似度測定とネットワーク信頼度推定を両立させる逆学習ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T16:05:10Z) - VideoForensicsHQ: Detecting High-quality Manipulated Face Videos [77.60295082172098]
偽造検知器の性能は、人間の目で見られる人工物の存在にどのように依存するかを示す。
前例のない品質の顔ビデオ偽造検出のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-05-20T21:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。