論文の概要: Generalizable Person Search on Open-world User-Generated Video Content
- arxiv url: http://arxiv.org/abs/2310.10068v1
- Date: Mon, 16 Oct 2023 04:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:27:47.692902
- Title: Generalizable Person Search on Open-world User-Generated Video Content
- Title(参考訳): オープンワールドユーザ生成ビデオコンテンツにおける一般化可能な人物検索
- Authors: Junjie Li, Guanshuo Wang, Yichao Yan, Fufu Yu, Qiong Jia, Jie Qin,
Shouhong Ding, Xiaokang Yang
- Abstract要約: 人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 93.72028298712118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person search is a challenging task that involves detecting and retrieving
individuals from a large set of un-cropped scene images. Existing person search
applications are mostly trained and deployed in the same-origin scenarios.
However, collecting and annotating training samples for each scene is often
difficult due to the limitation of resources and the labor cost. Moreover,
large-scale intra-domain data for training are generally not legally available
for common developers, due to the regulation of privacy and public security.
Leveraging easily accessible large-scale User Generated Video Contents
(\emph{i.e.} UGC videos) to train person search models can fit the open-world
distribution, but still suffering a performance gap from the domain difference
to surveillance scenes. In this work, we explore enhancing the out-of-domain
generalization capabilities of person search models, and propose a
generalizable framework on both feature-level and data-level generalization to
facilitate downstream tasks in arbitrary scenarios. Specifically, we focus on
learning domain-invariant representations for both detection and ReID by
introducing a multi-task prototype-based domain-specific batch normalization,
and a channel-wise ID-relevant feature decorrelation strategy. We also identify
and address typical sources of noise in open-world training frames, including
inaccurate bounding boxes, the omission of identity labels, and the absence of
cross-camera data. Our framework achieves promising performance on two
challenging person search benchmarks without using any human annotation or
samples from the target domain.
- Abstract(参考訳): 人物探索は,大規模に収集されていないシーン画像から個人を検出し,検索する作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
しかし,各シーンのトレーニングサンプルの収集と注釈付けは,資源の制限や作業コストのために難しい場合が多い。
さらに、トレーニングのための大規模ドメイン内データは通常、プライバシと公開セキュリティの規制のため、一般的な開発者には法的に利用できない。
個人検索モデルをトレーニングするために、アクセスしやすい大規模なユーザ生成ビデオコンテンツ(\emph{i.e.} UGCビデオ)を活用することは、オープンワールドの分布に適合するが、ドメインの違いから監視シーンへのパフォーマンスの差に苦しむ。
本研究では,人物探索モデルの領域外一般化能力の向上を探求し,任意のシナリオにおけるダウンストリームタスクを容易にするために,機能レベルとデータレベルの両方の一般化フレームワークを提案する。
具体的には、マルチタスクのプロトタイプベースのドメイン固有バッチ正規化を導入し、検出とReIDの両方に対するドメイン不変表現の学習に注力する。
また,不正確なバウンディングボックス,識別ラベルの省略,カメラ間データの欠如など,オープンワールドのトレーニングフレームにおける典型的なノイズ源を特定し,対処する。
本フレームワークは,対象ドメインからの人的アノテーションやサンプルを使わずに,2つの人的検索ベンチマークで有望な性能を実現する。
関連論文リスト
- Diverse Deep Feature Ensemble Learning for Omni-Domain Generalized Person Re-identification [30.208890289394994]
Person ReIDメソッドは、異なるデータセット間でトレーニングとテストを行うと、パフォーマンスが大幅に低下する。
本研究は,ドメイン一般化手法が単一データセットのベンチマークにおいて,単一ドメイン管理手法を著しく過小評価していることを明らかにする。
本稿では,自己アンサンブルによる深い特徴の多様性を生かし,ODG-ReIDを実現する方法を提案する。
論文 参考訳(メタデータ) (2024-10-11T02:27:11Z) - FedSIS: Federated Split Learning with Intermediate Representation
Sampling for Privacy-preserving Generalized Face Presentation Attack
Detection [4.1897081000881045]
目に見えないドメイン/アタックへの一般化の欠如は、FacePAD(face presentation attack detection)アルゴリズムのアキレスヒールである。
本研究では、プライバシ保護ドメインの一般化のために、中間表現サンプリング(FedSIS)を用いたFederated Split Learningと呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-20T11:49:12Z) - Deep Multimodal Fusion for Generalizable Person Re-identification [15.250738959921872]
DMF(ディープ・マルチモーダル・フュージョン)は、個人再識別タスクの一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークである。
事前学習段階における特徴表現学習を支援するために、リッチな意味知識が導入される。
実世界の分散アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットが採用されている。
論文 参考訳(メタデータ) (2022-11-02T07:42:48Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - Semi-Supervised Domain Generalizable Person Re-Identification [74.75528879336576]
既存の人物の再識別(re-id)メソッドは、新しい目に見えないシナリオにデプロイされると立ち往生する。
近年,新たなシナリオにおける未ラベルの広範なデータをトランスダクティブ学習方式で活用するドメイン適応型人物再認識への取り組みが進められている。
我々は、複数のラベル付きデータセットを探索し、人物の再識別のための一般化されたドメイン不変表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-08-11T06:08:25Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - A Background-Agnostic Framework with Adversarial Training for Abnormal
Event Detection in Video [120.18562044084678]
近年,ビデオにおける異常事象検出は複雑なコンピュータビジョンの問題として注目されている。
通常のイベントのみを含むトレーニングビデオから学習するバックグラウンドに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T18:39:24Z) - One-Shot Unsupervised Cross-Domain Detection [33.04327634746745]
本稿では,テスト時に見られる対象サンプルを1つだけ使用することにより,ドメイン間の非教師なし適応を実現できるオブジェクト検出アルゴリズムを提案する。
これを実現するために、単発で任意のサンプルに適応するマルチタスクアーキテクチャを導入し、その上で自己教師型タスクを反復的に解決する。
論文 参考訳(メタデータ) (2020-05-23T22:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。