論文の概要: Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos
- arxiv url: http://arxiv.org/abs/2104.08241v1
- Date: Thu, 15 Apr 2021 14:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 10:24:44.492894
- Title: Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos
- Title(参考訳): 映像における人物再同定のための空間時間相関とトポロジー学習
- Authors: Jiawei Liu, Zheng-Jun Zha, Wei Wu, Kecheng Zheng, Qibin Sun
- Abstract要約: クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
- 参考スコア(独自算出の注目度): 78.45050529204701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-based person re-identification aims to match pedestrians from video
sequences across non-overlapping camera views. The key factor for video person
re-identification is to effectively exploit both spatial and temporal clues
from video sequences. In this work, we propose a novel Spatial-Temporal
Correlation and Topology Learning framework (CTL) to pursue discriminative and
robust representation by modeling cross-scale spatial-temporal correlation.
Specifically, CTL utilizes a CNN backbone and a key-points estimator to extract
semantic local features from human body at multiple granularities as graph
nodes. It explores a context-reinforced topology to construct multi-scale
graphs by considering both global contextual information and physical
connections of human body. Moreover, a 3D graph convolution and a cross-scale
graph convolution are designed, which facilitate direct cross-spacetime and
cross-scale information propagation for capturing hierarchical spatial-temporal
dependencies and structural information. By jointly performing the two
convolutions, CTL effectively mines comprehensive clues that are complementary
with appearance information to enhance representational capacity. Extensive
experiments on two video benchmarks have demonstrated the effectiveness of the
proposed method and the state-of-the-art performance.
- Abstract(参考訳): ビデオベースの人物再識別は、重複しないカメラビュー間でビデオシーケンスから歩行者をマッチングすることを目的としている。
ビデオ人物の再識別の鍵となる要素は、ビデオシーケンスから空間的手がかりと時間的手がかりの両方を効果的に活用することである。
本研究では,空間-時間相関・トポロジー学習フレームワーク(ctl)を提案し,空間-時間相関をモデル化し,識別的かつロバストな表現を追求する。
具体的には、CTLはCNNバックボーンとキーポイント推定器を使用して、グラフノードとして複数の粒度の人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的つながりの両方を考慮し、コンテキスト強化トポロジーを探索し、マルチスケールグラフを構築する。
さらに、3次元グラフ畳み込みとクロススケールグラフ畳み込みをデザインし、階層的空間-時空間依存性と構造情報を取り込むための直接的クロス時空およびクロススケール情報伝達を容易にする。
2つの畳み込みを共同で行うことで、CTLは外観情報と相補的な包括的な手がかりを効果的に掘り下げ、表現能力を高める。
2つのビデオベンチマークによる大規模な実験により,提案手法の有効性と最先端性能が実証された。
関連論文リスト
- Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network [2.223052975765005]
本稿では,人間と物体の相互作用を自動的に認識する新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案する。
このシステムは、映像データをグラフとして検出した結果から、人間と物体の2次元または3次元空間関係を表す。
我々は,人間と物体の相互作用認識の分野で,2つの挑戦的データセット上でモデルを評価した。
論文 参考訳(メタデータ) (2024-10-10T13:39:17Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。