論文の概要: Global-Local Context Network for Person Search
- arxiv url: http://arxiv.org/abs/2112.02500v1
- Date: Sun, 5 Dec 2021 07:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 09:49:10.630088
- Title: Global-Local Context Network for Person Search
- Title(参考訳): 人物検索のためのグローバルローカルコンテキストネットワーク
- Authors: Peng Zheng, Jie Qin, Yichao Yan, Shengcai Liao, Bingbing Ni, Xiaogang
Cheng and Ling Shao
- Abstract要約: パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
- 参考スコア(独自算出の注目度): 125.51080862575326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person search aims to jointly localize and identify a query person from
natural, uncropped images, which has been actively studied in the computer
vision community over the past few years. In this paper, we delve into the rich
context information globally and locally surrounding the target person, which
we refer to scene and group context, respectively. Unlike previous works that
treat the two types of context individually, we exploit them in a unified
global-local context network (GLCNet) with the intuitive aim of feature
enhancement. Specifically, re-ID embeddings and context features are enhanced
simultaneously in a multi-stage fashion, ultimately leading to enhanced,
discriminative features for person search. We conduct the experiments on two
person search benchmarks (i.e., CUHK-SYSU and PRW) as well as extend our
approach to a more challenging setting (i.e., character search on MovieNet).
Extensive experimental results demonstrate the consistent improvement of the
proposed GLCNet over the state-of-the-art methods on the three datasets. Our
source codes, pre-trained models, and the new setting for character search are
available at: https://github.com/ZhengPeng7/GLCNet.
- Abstract(参考訳): 人探索は,過去数年間,コンピュータビジョンのコミュニティで積極的に研究されてきた,自然で切り離された画像から,クエリ対象を共同でローカライズし,識別することを目的としている。
本稿では,対象人物の全体的および局所的に囲む豊かなコンテキスト情報について,それぞれシーンとグループコンテキストを参照して考察する。
従来の2種類のコンテキストを個別に扱う作業とは異なり、機能拡張の直感的な目的を持ったグローバルローカルコンテキストネットワーク(GLCNet)でそれらを活用する。
特に、re-ID埋め込みとコンテキスト機能は、複数段階の方法で同時に拡張され、究極的には、個人検索のための強化された差別的特徴をもたらす。
我々は2人の人物検索ベンチマーク(cuhk-sysu と prw)で実験を行い、より困難な設定(すなわち movienet の文字検索)に我々のアプローチを拡張する。
広範な実験結果から、3つのデータセットの最先端手法に対するglcnetの一貫した改善が示された。
ソースコード、事前トレーニングされたモデル、および文字検索の新しい設定は、https://github.com/ZhengPeng7/GLCNet.comで利用可能です。
関連論文リスト
- Asynchronous Feedback Network for Perceptual Point Cloud Quality Assessment [18.65004981045047]
本稿では,グローバルおよびローカル機能を扱う新しい非同期フィードバックネットワーク(AFNet)を提案する。
AFNetは、グローバルな特徴と局所的な特徴を扱うためにデュアルブランチ構造を採用し、人間の脳の左右半球をシミュレートし、それらの間にフィードバックモジュールを構築する。
3つのデータセットに関する包括的な実験を行い、これらのデータセットに対する最先端のアプローチよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-07-13T08:52:44Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Generalizable Person Search on Open-world User-Generated Video Content [93.72028298712118]
人物の検索は、大量の露骨なシーン画像から個人を検索する、困難な作業である。
既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。
本稿では,任意のシナリオにおける下流タスクを容易にするために,特徴レベルとデータレベルの両方の一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:59:50Z) - Learning to Discover and Detect Objects [43.52208526783969]
新たなクラス発見・検出・ローカライゼーション(NCDL)の課題に取り組む。
この設定では、よく観察されるクラスのオブジェクトのラベル付きソースデータセットを仮定する。
検出ネットワークをエンドツーエンドでトレーニングすることにより、さまざまなクラスに対してすべてのリージョン提案を分類することが可能になる。
論文 参考訳(メタデータ) (2022-10-19T17:59:55Z) - OIMNet++: Prototypical Normalization and Localization-aware Learning for
Person Search [34.460973847554364]
我々は,人物検索,すなわち,生のシーン画像から人物をローカライズし,再同定するタスクに対処する。
近年のアプローチは、人探索の先駆的な研究であるOIMNetに基づいて構築され、共同人物表現を学習し、検出と人の再識別の両方を行う。
ProtoNormと呼ばれる新しい正規化レイヤを導入し、人身認証の長期分布を考慮しつつ、歩行者の提案から特徴を校正する。
論文 参考訳(メタデータ) (2022-07-21T06:34:03Z) - Exploring Visual Context for Weakly Supervised Person Search [155.46727990750227]
人探索は、歩行者の検出と人物の再識別を共同で扱う、困難なタスクとして最近登場した。
既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に教師付き設定に従っている。
本稿では,ボックスアノテーションのみを用いた弱教師付き人物検索について実験的に考察する。
論文 参考訳(メタデータ) (2021-06-19T14:47:13Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z) - Generative Language-Grounded Policy in Vision-and-Language Navigation
with Bayes' Rule [80.0853069632445]
視覚言語ナビゲーション(VLN)は、エージェントが現実的な3D環境に具体化され、目標ノードに到達するための指示に従うタスクである。
本稿では,言語モデルを用いて可能なすべての命令の分布を計算する生成言語基底ポリシーの設計と検討を行う。
実験では,提案手法がRoom-2-Room (R2R) とRoom-4-Room (R4R) データセット,特に未確認環境において差別的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-16T16:23:17Z) - A Convolutional Baseline for Person Re-Identification Using Vision and
Language Descriptions [24.794592610444514]
現実世界の監視シナリオでは、クエリされた人に関する視覚的な情報は頻繁に提供されない。
クロスエントロピー損失によって制御される2つのストリームディープ畳み込みニューラルネットワークフレームワークを示す。
学習した視覚表現は、単一のモダリティシステムと比較して、より堅牢で、検索時に22%向上する。
論文 参考訳(メタデータ) (2020-02-20T10:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。