論文の概要: A Flow-Guided Mutual Attention Network for Video-Based Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2008.03788v2
- Date: Sun, 4 Oct 2020 23:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:24:43.545246
- Title: A Flow-Guided Mutual Attention Network for Video-Based Person
Re-Identification
- Title(参考訳): 映像ベース人物再同定のためのフロー誘導型相互注意ネットワーク
- Authors: Madhu Kiran, Amran Bhuiyan, Louis-Antoine Blais-Morin, Mehrsan Javan,
Ismail Ben Ayed, Eric Granger
- Abstract要約: Person ReIDは多くの分析および監視アプリケーションにおいて難しい問題である。
ビデオベースのReIDは最近、特徴識別時間情報をキャプチャできるので、大きな関心を集めている。
本稿では、ReIDのための追加のキューとして、人物の動作パターンを探索する。
- 参考スコア(独自算出の注目度): 25.217641512619178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person Re-Identification (ReID) is a challenging problem in many video
analytics and surveillance applications, where a person's identity must be
associated across a distributed non-overlapping network of cameras. Video-based
person ReID has recently gained much interest because it allows capturing
discriminant spatio-temporal information from video clips that is unavailable
for image-based ReID. Despite recent advances, deep learning (DL) models for
video ReID often fail to leverage this information to improve the robustness of
feature representations. In this paper, the motion pattern of a person is
explored as an additional cue for ReID. In particular, a flow-guided Mutual
Attention network is proposed for fusion of image and optical flow sequences
using any 2D-CNN backbone, allowing to encode temporal information along with
spatial appearance information. Our Mutual Attention network relies on the
joint spatial attention between image and optical flow features maps to
activate a common set of salient features across them. In addition to
flow-guided attention, we introduce a method to aggregate features from longer
input streams for better video sequence-level representation. Our extensive
experiments on three challenging video ReID datasets indicate that using the
proposed Mutual Attention network allows to improve recognition accuracy
considerably with respect to conventional gated-attention networks, and
state-of-the-art methods for video-based person ReID.
- Abstract(参考訳): 人物再識別(reid:person re-identification)は多くのビデオ分析や監視アプリケーションにおいて困難な問題である。
ビデオベースのReIDは、画像ベースのReIDでは利用できないビデオクリップから、差別的な時空間情報をキャプチャできるので、最近注目されている。
近年の進歩にもかかわらず、ビデオReIDのためのディープラーニング(DL)モデルは、特徴表現の堅牢性を改善するためにこの情報を活用することができないことが多い。
本稿では、ReIDのための追加キューとして、人物の動きパターンを探索する。
特に2D-CNNバックボーンを用いて画像と光のフローシーケンスを融合させるためのフロー誘導型相互注意ネットワークを提案し,空間的外観情報とともに時間情報をエンコードする。
相互注意ネットワークは,画像と光フロー特徴マップの協調的な空間的注意に依存して,それらの共通したサルエント特徴を活性化する。
フローガイドによる注意に加えて,より長い入力ストリームから特徴を集約し,映像のシーケンスレベル表現を改善する手法を提案する。
3つの挑戦的ビデオReIDデータセットに関する広範な実験により,提案手法を用いることで,従来のゲートアテンションネットワークに対する認識精度が向上することを示す。
関連論文リスト
- Pyramid Attention Network for Medical Image Registration [4.142556531859984]
変形可能な医用画像登録のためのピラミッドアテンションネットワーク(PAN)を提案する。
PANはデュアルストリームピラミッドエンコーダをチャネルワイドで組み込んで特徴表現を強化している。
提案手法は,複数のCNNベースおよびTransformerベース登録ネットワークの性能を向上しつつ,良好な登録性能を実現する。
論文 参考訳(メタデータ) (2024-02-14T08:46:18Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Watching You: Global-guided Reciprocal Learning for Video-based Person
Re-identification [82.6971648465279]
映像に基づくRe-IDのための新しいグローバルガイド相互学習フレームワークを提案する。
我々のアプローチは他の最先端のアプローチよりも優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-03-07T12:27:42Z) - Not 3D Re-ID: a Simple Single Stream 2D Convolution for Robust Video
Re-identification [14.785070524184649]
ビデオベースのRe-IDは、以前の画像ベースの再識別手法の拡張である。
ResNet50-IBNアーキテクチャを利用した単純な単一ストリーム2D畳み込みネットワークの優れた性能を示す。
われわれのアプローチは、データセット間での最良のビデオRe-IDの実践と学習の伝達を利用して、既存の最先端のアプローチを上回ります。
論文 参考訳(メタデータ) (2020-08-14T12:19:32Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。