論文の概要: Keypoint Message Passing for Video-based Person Re-Identification
- arxiv url: http://arxiv.org/abs/2111.08279v1
- Date: Tue, 16 Nov 2021 08:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:06:20.112989
- Title: Keypoint Message Passing for Video-based Person Re-Identification
- Title(参考訳): ビデオベース人物再識別のためのキーポイントメッセージパッシング
- Authors: Di Chen, Andreas Doering, Shanshan Zhang, Jian Yang, Juergen Gall,
Bernt Schiele
- Abstract要約: ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
- 参考スコア(独自算出の注目度): 106.41022426556776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based person re-identification (re-ID) is an important technique in
visual surveillance systems which aims to match video snippets of people
captured by different cameras. Existing methods are mostly based on
convolutional neural networks (CNNs), whose building blocks either process
local neighbor pixels at a time, or, when 3D convolutions are used to model
temporal information, suffer from the misalignment problem caused by person
movement. In this paper, we propose to overcome the limitations of normal
convolutions with a human-oriented graph method. Specifically, features located
at person joint keypoints are extracted and connected as a spatial-temporal
graph. These keypoint features are then updated by message passing from their
connected nodes with a graph convolutional network (GCN). During training, the
GCN can be attached to any CNN-based person re-ID model to assist
representation learning on feature maps, whilst it can be dropped after
training for better inference speed. Our method brings significant improvements
over the CNN-based baseline model on the MARS dataset with generated person
keypoints and a newly annotated dataset: PoseTrackReID. It also defines a new
state-of-the-art method in terms of top-1 accuracy and mean average precision
in comparison to prior works.
- Abstract(参考訳): ビデオベースの人物識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服する手法を提案する。
具体的には、人手キーポイントに位置する特徴を抽出して空間-時間グラフとして接続する。
これらのキーポイント機能は、グラフ畳み込みネットワーク(GCN)で接続されたノードからメッセージ転送によって更新される。
トレーニング中、GCNは任意のCNNベースの人物のre-IDモデルにアタッチされ、特徴マップでの表現学習を支援する。
提案手法は,生成した人物キーポイントと新たに注釈付きデータセットであるPoseTrackReIDを用いて,MARSデータセット上のCNNベースのベースラインモデルを大幅に改善する。
また、先行研究と比較して、トップ1の精度と平均的な精度で新しい最先端手法を定義する。
関連論文リスト
- Networked Time Series Imputation via Position-aware Graph Enhanced
Variational Autoencoders [31.953958053709805]
我々は,変分オートエンコーダ(VAE)を利用して,ノード時系列の特徴とグラフ構造の両方に欠落する値を予測するPoGeVonという新しいモデルを設計する。
実験の結果,ベースライン上でのモデルの有効性が示された。
論文 参考訳(メタデータ) (2023-05-29T21:11:34Z) - Pose-Aided Video-based Person Re-Identification via Recurrent Graph
Convolutional Network [41.861537712563816]
本稿では,映像検索機能以外の識別的ポーズ特徴を学習することを提案する。
ポーズの特徴を学習するために、私たちはまず、オフザシェルフポーズ検知器を通して各フレーム内の歩行者のポーズを検出する。
次に、繰り返しグラフ畳み込みネットワーク(RGCN)を用いて、時間的ポーズグラフのノード埋め込みを学習する。
論文 参考訳(メタデータ) (2022-09-23T13:20:33Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。