論文の概要: Dense Interaction Learning for Video-based Person Re-identification
- arxiv url: http://arxiv.org/abs/2103.09013v1
- Date: Tue, 16 Mar 2021 12:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:27:31.104058
- Title: Dense Interaction Learning for Video-based Person Re-identification
- Title(参考訳): 映像に基づく人物再識別のためのディエンスインタラクション学習
- Authors: Tianyu He, Xin Jin, Xu Shen, Jianqiang Huang, Zhibo Chen, Xian-Sheng
Hua
- Abstract要約: ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNアーキテクチャとTransformer Decoderが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
- 参考スコア(独自算出の注目度): 75.03200492219003
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video-based person re-identification (re-ID) aims at matching the same person
across video clips. Efficiently exploiting multi-scale fine-grained features
while building the structural interaction among them is pivotal for its
success. In this paper, we propose a hybrid framework, Dense Interaction
Learning (DenseIL), that takes the principal advantages of both CNN-based and
Attention-based architectures to tackle video-based person re-ID difficulties.
DenseIL contains a CNN Encoder and a Transformer Decoder. The CNN Encoder is
responsible for efficiently extracting discriminative spatial features while
the Transformer Decoder is designed to deliberately model spatial-temporal
inherent interaction across frames. Different from the vanilla Transformer, we
additionally let the Transformer Decoder densely attends to intermediate
fine-grained CNN features and that naturally yields multi-scale
spatial-temporal feature representation for each video clip. Moreover, we
introduce Spatio-TEmporal Positional Embedding (STEP-Emb) into the Transformer
Decoder to investigate the positional relation among the spatial-temporal
inputs. Our experiments consistently and significantly outperform all the
state-of-the-art methods on multiple standard video-based re-ID datasets.
- Abstract(参考訳): ビデオベースの人物再識別(re-ID)は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
構造的相互作用を構築しながら、マルチスケールのきめ細かい特徴を効果的に活用することが、その成功の鍵となる。
本稿では,cnnベースと注意ベースの両方のアーキテクチャの利点を生かして,ビデオベースの人物再特定問題に取り組むためのハイブリッドフレームワークであるdenseilを提案する。
denseilはcnnエンコーダとトランスデコーダを含んでいる。
CNNエンコーダは、フレーム間の空間的・時間的相互作用を意図的にモデル化するように設計されたトランスフォーマーデコーダに対して、識別的空間的特徴を効率的に抽出する。
バニラトランスとは違って、トランスフォーマーデコーダは中間粒度CNN機能に密着させ、ビデオクリップ毎にマルチスケールの時空間特徴表現を自然に生成する。
さらに、時空間入力における位置関係を調べるために、Transformer DecoderにSTEP-Emb(Spatio-TEmporal Positional Embedding)を導入する。
我々の実験は、複数の標準ビデオベースのre-IDデータセットにおける最先端の手法を一貫して大幅に上回っている。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - CSTA: CNN-based Spatiotemporal Attention for Video Summarization [0.24578723416255752]
本稿では,CNN をベースとした SpatioTemporal Attention (CSTA) 手法を提案する。
提案手法は,CNNによるフレーム内およびフレーム内関係の理解と,画像内の絶対位置を学習する能力を活用して,映像中の重要な属性を見つけることに依存する。
論文 参考訳(メタデータ) (2024-05-20T09:38:37Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。