論文の概要: Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification
- arxiv url: http://arxiv.org/abs/2301.00531v1
- Date: Mon, 2 Jan 2023 05:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:21:52.729606
- Title: Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification
- Title(参考訳): 映像人物再同定のための多段時空間アグリゲーショントランス
- Authors: Ziyi Tang, Ruimao Zhang, Zhanglin Peng, Jinrui Chen, Liang Lin
- Abstract要約: 本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
- 参考スコア(独自算出の注目度): 78.08536797239893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the Transformer architecture has shown its superiority in
the video-based person re-identification task. Inspired by video representation
learning, these methods mainly focus on designing modules to extract
informative spatial and temporal features. However, they are still limited in
extracting local attributes and global identity information, which are critical
for the person re-identification task. In this paper, we propose a novel
Multi-Stage Spatial-Temporal Aggregation Transformer (MSTAT) with two novel
designed proxy embedding modules to address the above issue. Specifically,
MSTAT consists of three stages to encode the attribute-associated, the
identity-associated, and the attribute-identity-associated information from the
video clips, respectively, achieving the holistic perception of the input
person. We combine the outputs of all the stages for the final identification.
In practice, to save the computational cost, the Spatial-Temporal Aggregation
(STA) modules are first adopted in each stage to conduct the self-attention
operations along the spatial and temporal dimensions separately. We further
introduce the Attribute-Aware and Identity-Aware Proxy embedding modules (AAP
and IAP) to extract the informative and discriminative feature representations
at different stages. All of them are realized by employing newly designed
self-attention operations with specific meanings. Moreover, temporal patch
shuffling is also introduced to further improve the robustness of the model.
Extensive experimental results demonstrate the effectiveness of the proposed
modules in extracting the informative and discriminative information from the
videos, and illustrate the MSTAT can achieve state-of-the-art accuracies on
various standard benchmarks.
- Abstract(参考訳): 近年、トランスフォーマーアーキテクチャはビデオベースの人物再識別タスクにおいて優れていることが示されている。
映像表現学習にヒントを得たこれらの手法は主に情報的空間的特徴と時間的特徴を抽出するモジュールの設計に焦点を当てている。
しかし, 地域属性とグローバルアイデンティティ情報の抽出には依然として限定的であり, 再識別作業には重要な課題である。
本稿では,上記の問題に対処するために,新たに設計された2つのプロキシ埋め込みモジュールを備えた多段空間-時空間アグリゲーショントランスフォーマ(mstat)を提案する。
具体的には、MSTATは、属性関連、アイデンティティ関連、属性関連情報をそれぞれビデオクリップから符号化する3つの段階から構成され、入力者の全体的知覚を達成する。
最終識別のためのすべてのステージの出力を組み合わせます。
実際には、計算コストを節約するために、空間時間集約(STA)モジュールをまず各ステージに導入し、空間次元と時間次元を別々にセルフアテンション操作を行う。
さらに,属性認識およびid認識型プロキシ埋め込みモジュール(aapおよびiap)を導入し,情報的かつ識別的な特徴表現を異なる段階で抽出する。
これらすべては、特定の意味を持つ、新しく設計された自己注意操作を採用することで実現される。
さらに,モデルのロバスト性をさらに向上させるために,時間パッチシャッフルも導入されている。
ビデオから情報および識別情報を抽出する上で,提案モジュールの有効性を実証し,MSTATが様々な標準ベンチマークで最先端の精度を達成できることを示す。
関連論文リスト
- Enhancing Visible-Infrared Person Re-identification with Modality- and Instance-aware Visual Prompt Learning [29.19130646630545]
MIP(Modality-aware and Instance-aware Visual Prompts)ネットワークについて紹介する。
MIPは、不変情報と特定情報の両方を効果的に利用して識別するように設計されている。
提案するMIPは,ほとんどの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-18T06:39:03Z) - Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification [14.219232629274186]
DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。
このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。
DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
論文 参考訳(メタデータ) (2024-02-16T03:53:30Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Identity-aware Graph Memory Network for Action Detection [37.65846189707054]
グラフメモリネットワークを通じて,アクターの身元情報を長期的・短期的両方の文脈で明確に強調する。
具体的には,長期関係モデリングを包括的に行う階層型グラフニューラルネットワーク(IGNN)を提案する。
我々は、異なるアイデンティティを持つアクターによる干渉の影響を低減するために、ID認識制約を生成するデュアルアテンションモジュール(DAM)を開発した。
論文 参考訳(メタデータ) (2021-08-26T02:34:55Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。