論文の概要: Pose-Aided Video-based Person Re-Identification via Recurrent Graph
Convolutional Network
- arxiv url: http://arxiv.org/abs/2209.11582v1
- Date: Fri, 23 Sep 2022 13:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 16:49:43.313129
- Title: Pose-Aided Video-based Person Re-Identification via Recurrent Graph
Convolutional Network
- Title(参考訳): リカレントグラフ畳み込みネットワークによるPose-Aided Video-based Person再同定
- Authors: Honghu Pan, Qiao Liu, Yongyong Chen, Yunqi He, Yuan Zheng, Feng Zheng,
Zhenyu He
- Abstract要約: 本稿では,映像検索機能以外の識別的ポーズ特徴を学習することを提案する。
ポーズの特徴を学習するために、私たちはまず、オフザシェルフポーズ検知器を通して各フレーム内の歩行者のポーズを検出する。
次に、繰り返しグラフ畳み込みネットワーク(RGCN)を用いて、時間的ポーズグラフのノード埋め込みを学習する。
- 参考スコア(独自算出の注目度): 41.861537712563816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for video-based person re-identification (ReID) mainly learn
the appearance feature of a given pedestrian via a feature extractor and a
feature aggregator.
However, the appearance models would fail when different pedestrians have
similar appearances.
Considering that different pedestrians have different walking postures and
body proportions, we propose to learn the discriminative pose feature beyond
the appearance feature for video retrieval.
Specifically, we implement a two-branch architecture to separately learn the
appearance feature and pose feature, and then concatenate them together for
inference.
To learn the pose feature, we first detect the pedestrian pose in each frame
through an off-the-shelf pose detector, and construct a temporal graph using
the pose sequence.
We then exploit a recurrent graph convolutional network (RGCN) to learn the
node embeddings of the temporal pose graph, which devises a global information
propagation mechanism to simultaneously achieve the neighborhood aggregation of
intra-frame nodes and message passing among inter-frame graphs.
Finally, we propose a dual-attention method consisting of node-attention and
time-attention to obtain the temporal graph representation from the node
embeddings, where the self-attention mechanism is employed to learn the
importance of each node and each frame.
We verify the proposed method on three video-based ReID datasets, i.e., Mars,
DukeMTMC and iLIDS-VID, whose experimental results demonstrate that the learned
pose feature can effectively improve the performance of existing appearance
models.
- Abstract(参考訳): 既存の映像ベース人物再同定手法(reid)は、主に特徴抽出器と特徴集約器を介して歩行者の出現特徴を学習する。
しかし、異なる歩行者が同じ外観の場合、外観モデルは失敗する。
異なる歩行者が歩行姿勢や体格が異なることを考慮し,映像検索の外観機能以上の姿勢特徴を身につけることを提案する。
具体的には、外観特徴とポーズ特徴を個別に学習し、それから推論のためにそれらを結合する2分岐アーキテクチャを実装します。
ポーズの特徴を学習するために、まずオフザシェルフポーズ検出器を通して各フレーム内の歩行者のポーズを検出し、ポーズシーケンスを用いて時間グラフを構築する。
次に、繰り返しグラフ畳み込みネットワーク(RGCN)を用いて、時間的ポーズグラフのノード埋め込みを学習し、フレーム内ノードの近傍集約とフレーム間グラフ間のメッセージパッシングを同時に実現するグローバル情報伝播機構を考案する。
最後に,ノードの埋め込みから時間的グラフ表現を得るために,ノードとフレームの重要度を学習するために自己認識機構を用いる。
提案手法を,火星,デュークMTMC,iLIDS-VIDの3つのビデオベースReIDデータセット上で検証し,学習されたポーズ特徴が既存の外観モデルの性能を効果的に向上することを示した。
関連論文リスト
- Occlusion Resilient 3D Human Pose Estimation [52.49366182230432]
排除は、シングルカメラビデオシーケンスからの3Dボディポーズ推定における重要な課題の1つとして残されている。
単一カメラシーケンスからポーズを推測する最先端技術と比較して,このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-16T19:29:43Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Bipartite Graph Reasoning GANs for Person Pose and Facial Image
Synthesis [201.39323496042527]
本稿では、人物のポーズと顔画像合成という2つの課題に対して、生成的敵対ネットワーク(BiGraphGAN)を推論する新しい二部グラフを提案する。
提案するグラフ生成器は,ポーズ・ツー・ポーズ関係とポーズ・ツー・イメージ関係をモデル化する2つの新しいブロックから構成される。
論文 参考訳(メタデータ) (2022-11-12T18:27:00Z) - PGGANet: Pose Guided Graph Attention Network for Person
Re-identification [0.0]
人物再識別(ReID)は、異なるカメラで撮影された画像から人物を回収することを目的としている。
局所的な特徴と人像のグローバルな特徴を併用することで、人物の検索に堅牢な特徴表現を与えることができることが証明されている。
本研究では,ポーズガイド付きグラフアテンションネットワーク,グローバル機能のための1つのブランチ,中粒体機能のための1つのブランチ,粒状キーポイント機能のための1つのブランチからなるマルチブランチアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-29T09:47:39Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Graph-based Person Signature for Person Re-Identifications [17.181807593574764]
詳細な人物の記述(ラベルの属性)と視覚的特徴(ボディパーツとグローバル機能)をグラフに効果的に集約する新しい方法を提案します。
グラフは、人物の再識別のためのマルチブランチマルチタスクフレームワークに統合されます。
提案手法は,技術状況間での競争結果を達成し,他の属性ベースの手法やマスク誘導手法よりも優れる。
論文 参考訳(メタデータ) (2021-04-14T10:54:36Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。