論文の概要: Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos
- arxiv url: http://arxiv.org/abs/2004.04979v2
- Date: Mon, 11 May 2020 10:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 20:45:03.746761
- Title: Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos
- Title(参考訳): ビデオにおける人物再同定のための時空間相互作用ネットワーク
- Authors: Jiawei Liu, Zheng-Jun Zha, Xierong Zhu, Na Jiang
- Abstract要約: 本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
- 参考スコア(独自算出の注目度): 85.6430597108455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification aims at identifying a certain pedestrian across
non-overlapping camera networks. Video-based re-identification approaches have
gained significant attention recently, expanding image-based approaches by
learning features from multiple frames. In this work, we propose a novel
Co-Saliency Spatio-Temporal Interaction Network (CSTNet) for person
re-identification in videos. It captures the common salient foreground regions
among video frames and explores the spatial-temporal long-range context
interdependency from such regions, towards learning discriminative pedestrian
representation. Specifically, multiple co-saliency learning modules within
CSTNet are designed to utilize the correlated information across video frames
to extract the salient features from the task-relevant regions and suppress
background interference. Moreover, multiple spatialtemporal interaction modules
within CSTNet are proposed, which exploit the spatial and temporal long-range
context interdependencies on such features and spatial-temporal information
correlation, to enhance feature representation. Extensive experiments on two
benchmarks have demonstrated the effectiveness of the proposed method.
- Abstract(参考訳): 人物再識別は、重複しないカメラネットワークで特定の歩行者を特定することを目的としている。
近年,複数のフレームから特徴を学習することで画像ベースのアプローチを拡大し,映像ベースの再同定手法が注目されている。
そこで本研究では,ビデオにおける人物再同定のための新しいコサリエンシー時空間インタラクションネットワーク(cstnet)を提案する。
映像のフレーム間で共通の突出したフォアグラウンド領域をキャプチャし、その領域から空間的-時間的長距離コンテキスト相互依存を探索し、識別的な歩行者表現を学ぶ。
具体的には、CSTNet内の複数の共存学習モジュールは、ビデオフレーム間の相関情報を利用してタスク関連領域から有能な特徴を抽出し、背景干渉を抑制するように設計されている。
さらに,CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用して特徴表現を強化する。
提案手法の有効性を2つのベンチマークで検証した。
関連論文リスト
- Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - Temporal Attribute-Appearance Learning Network for Video-based Person
Re-Identification [94.03477970865772]
本稿では,ビデオに基づく人物再識別のための時間属性・アプライアンス学習ネットワーク(TALNet)を提案する。
TALNetは人間の属性と外観を利用して、ビデオから包括的で効果的な歩行者表現を学習する。
論文 参考訳(メタデータ) (2020-09-09T09:28:07Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。