論文の概要: PeR-ViS: Person Retrieval in Video Surveillance using Semantic
Description
- arxiv url: http://arxiv.org/abs/2012.02408v1
- Date: Fri, 4 Dec 2020 05:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 09:54:46.856412
- Title: PeR-ViS: Person Retrieval in Video Surveillance using Semantic
Description
- Title(参考訳): PeR-ViS:意味記述を用いたビデオサーベイランスの個人検索
- Authors: Parshwa Shah, Arpit Garg and Vandit Gajjar
- Abstract要約: 人は通常、年齢、性別、身長、布の種類、模様、色などの記述子で特徴づけられる。
セマンティック記述のクエリで特定の人物を検索することは、ビデオ監視において重要な応用である。
我々は深層学習に基づくカスケードフィルタリング手法(PeR-ViS)を開発した。
0.566 平均 IoU と 0.792 %w $ IoU > 0.4$ を達成する。
- 参考スコア(独自算出の注目度): 0.491574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A person is usually characterized by descriptors like age, gender, height,
cloth type, pattern, color, etc. Such descriptors are known as attributes
and/or soft-biometrics. They link the semantic gap between a person's
description and retrieval in video surveillance. Retrieving a specific person
with the query of semantic description has an important application in video
surveillance. Using computer vision to fully automate the person retrieval task
has been gathering interest within the research community. However, the
Current, trend mainly focuses on retrieving persons with image-based queries,
which have major limitations for practical usage. Instead of using an image
query, in this paper, we study the problem of person retrieval in video
surveillance with a semantic description. To solve this problem, we develop a
deep learning-based cascade filtering approach (PeR-ViS), which uses Mask R-CNN
[14] (person detection and instance segmentation) and DenseNet-161 [16]
(soft-biometric classification). On the standard person retrieval dataset of
SoftBioSearch [6], we achieve 0.566 Average IoU and 0.792 %w $IoU > 0.4$,
surpassing the current state-of-the-art by a large margin. We hope our simple,
reproducible, and effective approach will help ease future research in the
domain of person retrieval in video surveillance. The source code and
pretrained weights available at https://parshwa1999.github.io/PeR-ViS/.
- Abstract(参考訳): 人は通常、年齢、性別、身長、布の種類、パターン、色などの記述者によって特徴づけられる。
このような記述子は属性やソフトバイオメトリックスとして知られている。
ビデオ監視において、人の記述と検索のセマンティックなギャップをリンクする。
セマンティック記述のクエリで特定の人物を取得することは、ビデオ監視において重要な応用である。
コンピュータビジョンを用いて人検索作業を完全に自動化し,研究コミュニティ内で関心を集めている。
しかし、現在のトレンドは、主に画像ベースのクエリを持つ人物の検索に焦点を当てているため、実用上の大きな制限がある。
本稿では,画像クエリーの代わりに,映像監視における人物検索の問題点を意味的記述を用いて検討する。
この問題を解決するために,Mask R-CNN [14] と DenseNet-161 [16] を用いた深層学習に基づくカスケードフィルタリング手法 (PeR-ViS) を開発した。
SoftBioSearch [6] の標準人物検索データセットでは、0.566平均 IoU と 0.792 %w $IoU > 0.4$ を達成し、現在の最先端をはるかに上回っている。
私たちのシンプルで再現可能で効果的なアプローチが、ビデオ監視における人物検索の領域における将来の研究を容易にしてくれることを期待しています。
ソースコードとトレーニング済みのウェイトはhttps://parshwa1999.github.io/per-vis/。
関連論文リスト
- Flexible image analysis for law enforcement agencies with deep neural networks to determine: where, who and what [36.136619420474766]
法執行機関(LEA)は、ラディカル化の発見やテロリスト組織へのプロパガンダ、ダークネット市場における違法な製品など、画像やビデオを検査している。
直接検索する代わりに、LEAは新たな犯罪や脅威に適応し、特定の場所、人、または対象からのデータにのみ焦点を合わせたいと考えている。
深層畳み込みニューラルネットワーク(CNN)による視覚概念検出は、画像の内容を理解する上で重要な要素である。
論文 参考訳(メタデータ) (2024-05-15T09:02:17Z) - Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:59:50Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Scalable Reverse Image Search Engine for NASAWorldview [0.6524460254566903]
研究者たちは、何十年にもわたって未ラベルの衛星画像に数週間を費やしています。
インタラクティブでスケーラブルで高速な画像類似性検索エンジンを開発し、ラベルのないデータセットを自動でシャフトする。
論文 参考訳(メタデータ) (2021-08-10T07:03:00Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - Person Retrieval in Surveillance Using Textual Query: A Review [1.41414531071294]
近年のバイオメトリックス、コンピュータビジョン、自然言語処理の研究は、テキストクエリを用いた監視ビデオから人物を検索する機会を発見した。
テキストクエリは、人のソフトな生体認証属性を含むため、人間記述と機械間の意味的なギャップを埋めるのに役立ちます。
また、大量の監視映像を手動で検索して特定の人物を取得することは不可能です。
論文 参考訳(メタデータ) (2021-05-06T03:17:13Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - PoseTrackReID: Dataset Description [97.7241689753353]
詩情報は、背景や閉塞音から有用な特徴情報を遠ざけるのに役立つ。
PoseTrackReIDでは、人物のリIDと複数人のポーズトラッキングのギャップを埋めたいと考えています。
このデータセットは、マルチフレームの人物のre-IDに関する現在の最先端メソッドに対する優れたベンチマークを提供する。
論文 参考訳(メタデータ) (2020-11-12T07:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。