論文の概要: Tran-GCN: A Transformer-Enhanced Graph Convolutional Network for Person Re-Identification in Monitoring Videos
- arxiv url: http://arxiv.org/abs/2409.09391v1
- Date: Sat, 14 Sep 2024 09:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:57:09.127747
- Title: Tran-GCN: A Transformer-Enhanced Graph Convolutional Network for Person Re-Identification in Monitoring Videos
- Title(参考訳): Tran-GCN: ビデオ監視における人物再同定のためのトランスフォーマー強化グラフ畳み込みネットワーク
- Authors: Xiaobin Hong, Tarmizi Adam, Masitah Ghazali,
- Abstract要約: Person Re-Identification (Re-ID) はコンピュータビジョンで人気を博し、クロスカメラの歩行者認識を可能にしている。
監視ビデオにおける人物識別性能を向上させるために,トランスフォーマー強化グラフ畳み込みネットワーク(Tran-GCN)モデルを提案する。
- 参考スコア(独自算出の注目度): 8.559235103954341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person Re-Identification (Re-ID) has gained popularity in computer vision, enabling cross-camera pedestrian recognition. Although the development of deep learning has provided a robust technical foundation for person Re-ID research, most existing person Re-ID methods overlook the potential relationships among local person features, failing to adequately address the impact of pedestrian pose variations and local body parts occlusion. Therefore, we propose a Transformer-enhanced Graph Convolutional Network (Tran-GCN) model to improve Person Re-Identification performance in monitoring videos. The model comprises four key components: (1) A Pose Estimation Learning branch is utilized to estimate pedestrian pose information and inherent skeletal structure data, extracting pedestrian key point information; (2) A Transformer learning branch learns the global dependencies between fine-grained and semantically meaningful local person features; (3) A Convolution learning branch uses the basic ResNet architecture to extract the person's fine-grained local features; (4) A Graph Convolutional Module (GCM) integrates local feature information, global feature information, and body information for more effective person identification after fusion. Quantitative and qualitative analysis experiments conducted on three different datasets (Market-1501, DukeMTMC-ReID, and MSMT17) demonstrate that the Tran-GCN model can more accurately capture discriminative person features in monitoring videos, significantly improving identification accuracy.
- Abstract(参考訳): Person Re-Identification (Re-ID) はコンピュータビジョンで人気を博し、クロスカメラの歩行者認識を可能にしている。
ディープ・ラーニングの開発は、人物のRe-ID研究に堅牢な技術基盤を提供してきたが、既存のほとんどの人物のRe-ID手法は、歩行者のポーズのバリエーションと局所的な身体部分の閉塞の影響を適切に解決することができない、地元の人物の特徴間の潜在的な関係を見落としている。
そこで本研究では,トランスフォーマー強化グラフ畳み込みネットワーク(Tran-GCN)モデルを提案する。
このモデルは,(1)歩行者のポーズ情報と固有の骨格構造データを推定し,歩行者のキーポイント情報を抽出するために,(1)トランスフォーマー学習部は,細粒度と意味的に意味のある局所的特徴の間のグローバルな依存関係を学習する,(3)コンフォーメーション学習部は,人の基本ResNetアーキテクチャを用いて,きめ細かい局所的特徴を抽出する,(4)グラフ畳み込みモジュール(GCM)は,局所的特徴情報,グローバルな特徴情報,および身体情報を融合後のより効果的な人物識別のために統合する,という4つのキーコンポーネントから構成される。
3つの異なるデータセット(Market-1501、DukeMTMC-ReID、MSMT17)で行われた定量的および定性的な分析実験は、Tran-GCNモデルがビデオ監視における識別的特徴をより正確に捉え、識別精度を大幅に向上させることができることを示した。
関連論文リスト
- Attention-based Shape and Gait Representations Learning for Video-based
Cloth-Changing Person Re-Identification [1.6385815610837167]
我々は「注意に基づく形状と歩行表現学習」(ASGL)を提案することにより、映像ベースの衣服交換者Re-ID(VCCRe-ID)の実践的問題に対処する。
当社のASGLフレームワークは,衣服不変歩行手がかりを学習することにより,衣服変動下でのRe-ID性能を向上させる。
提案するST-GATはマルチヘッドアテンションモジュールから構成されており,歩行埋め込みの堅牢性を高めることができる。
論文 参考訳(メタデータ) (2024-02-06T05:11:46Z) - Learning Cross-modality Information Bottleneck Representation for
Heterogeneous Person Re-Identification [61.49219876388174]
Visible-Infrared person re-identification (VI-ReID)は、インテリジェントビデオ監視において重要かつ困難な課題である。
既存の手法は主に共有特徴空間の学習に重点を置いており、可視光と赤外光の相違を減らす。
本稿では,新しい相互情報・モダリティコンセンサスネットワーク,すなわちCMInfoNetを提案し,モダリティ不変な同一性の特徴を抽出する。
論文 参考訳(メタデータ) (2023-08-29T06:55:42Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Brain Network Transformer [13.239896897835191]
脳ネットワーク解析のためのトランスフォーマーモデルについて検討する。
データの特徴によって駆動される私たちは、脳ネットワークを、一定のサイズと順序のノードを持つグラフとしてモデル化します。
我々は、ABIDEの大規模脳ネットワークデータセットとして唯一公開されているものについて、評価パイプラインを再標準化する。
論文 参考訳(メタデータ) (2022-10-13T02:30:06Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - PGGANet: Pose Guided Graph Attention Network for Person
Re-identification [0.0]
人物再識別(ReID)は、異なるカメラで撮影された画像から人物を回収することを目的としている。
局所的な特徴と人像のグローバルな特徴を併用することで、人物の検索に堅牢な特徴表現を与えることができることが証明されている。
本研究では,ポーズガイド付きグラフアテンションネットワーク,グローバル機能のための1つのブランチ,中粒体機能のための1つのブランチ,粒状キーポイント機能のための1つのブランチからなるマルチブランチアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-29T09:47:39Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。