論文の概要: Temporal Attribute-Appearance Learning Network for Video-based Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2009.04181v1
- Date: Wed, 9 Sep 2020 09:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 11:38:23.467515
- Title: Temporal Attribute-Appearance Learning Network for Video-based Person
Re-Identification
- Title(参考訳): 映像ベース人物再同定のための時間属性出現学習ネットワーク
- Authors: Jiawei Liu, Xierong Zhu, Zheng-Jun Zha
- Abstract要約: 本稿では,ビデオに基づく人物再識別のための時間属性・アプライアンス学習ネットワーク(TALNet)を提案する。
TALNetは人間の属性と外観を利用して、ビデオから包括的で効果的な歩行者表現を学習する。
- 参考スコア(独自算出の注目度): 94.03477970865772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-based person re-identification aims to match a specific pedestrian in
surveillance videos across different time and locations. Human attributes and
appearance are complementary to each other, both of them contribute to
pedestrian matching. In this work, we propose a novel Temporal
Attribute-Appearance Learning Network (TALNet) for video-based person
re-identification. TALNet simultaneously exploits human attributes and
appearance to learn comprehensive and effective pedestrian representations from
videos. It explores hard visual attention and temporal-semantic context for
attributes, and spatial-temporal dependencies among body parts for appearance,
to boost the learning of them. Specifically, an attribute branch network is
proposed with a spatial attention block and a temporal-semantic context block
for learning robust attribute representation. The spatial attention block
focuses the network on corresponding regions within video frames related to
each attribute, the temporal-semantic context block learns both the temporal
context for each attribute across video frames and the semantic context among
attributes in each video frame. The appearance branch network is designed to
learn effective appearance representation from both whole body and body parts
with spatial-temporal dependencies among them. TALNet leverages the
complementation between attribute and appearance representations, and jointly
optimizes them by multi-task learning fashion. Moreover, we annotate ID-level
attributes for each pedestrian in the two commonly used video datasets.
Extensive experiments on these datasets, have verified the superiority of
TALNet over state-of-the-art methods.
- Abstract(参考訳): ビデオに基づく人物の身元確認は、特定の歩行者と異なる時間と場所の監視ビデオとを一致させることを目的としている。
人間の属性と外見は互いに相補的であり、どちらも歩行者のマッチングに寄与する。
本研究では,ビデオベース人物再同定のための時間属性出現学習ネットワーク(talnet)を提案する。
TALNetは人間の属性と外観を利用して、ビデオから包括的で効果的な歩行者表現を学習する。
属性に対する難解な視覚的注意と時間的意味的コンテキスト、外見のための身体部分間の空間的時間的依存を探求し、それらを学ぶことを促進する。
具体的には、強固な属性表現を学習するための空間的注意ブロックと時間的意味的文脈ブロックとを備えた属性分岐ネットワークを提案する。
空間的注意ブロックは、各属性に関連するビデオフレーム内の対応する領域にネットワークを集中させ、時間的意味コンテキストブロックは、ビデオフレーム間の各属性の時間的コンテキストと、各ビデオフレーム内の属性間の意味的コンテキストの両方を学習する。
外観分岐ネットワークは、空間的-時間的依存関係を持つ全身および身体部分の両方から効果的な外観表現を学習するように設計されている。
TALNetは属性と外観表現の相補性を活用し、マルチタスク学習方式でそれらを共同で最適化する。
さらに,2つの一般的なビデオデータセットにおいて,歩行者毎にidレベルの属性をアノテートする。
これらのデータセットに関する広範な実験により、talnetが最先端の方法よりも優れていることが確認された。
関連論文リスト
- Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - SSAN: Separable Self-Attention Network for Video Representation Learning [11.542048296046524]
本稿では,空間的および時間的相関を逐次モデル化する分離型自己アテンションモジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
提案手法は,Something と Kinetics-400 データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-05-27T10:02:04Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - IAUnet: Global Context-Aware Feature Learning for Person
Re-Identification [106.50534744965955]
IAUブロックは、グローバル空間、時間、チャネルコンテキストを組み込むことができる。
軽量でエンドツーエンドのトレーニングが可能で、既存のCNNに簡単に接続してIAUnetを形成することができる。
実験の結果、IAUnetは画像とビデオの両方で最先端のreIDタスクに対して好意的に機能することがわかった。
論文 参考訳(メタデータ) (2020-09-02T13:07:10Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。