論文の概要: Video-based Person Re-identification with Spatial and Temporal Memory
Networks
- arxiv url: http://arxiv.org/abs/2108.09039v1
- Date: Fri, 20 Aug 2021 08:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:27:03.312961
- Title: Video-based Person Re-identification with Spatial and Temporal Memory
Networks
- Title(参考訳): 空間記憶ネットワークと時間記憶ネットワークによる人物再同定
- Authors: Chanho Eom, Geon Lee, Junghyup Lee, Bumsub Ham
- Abstract要約: 人物ビデオにおける空間的・時間的注意散らしは、このタスクを画像ベースの人物のreIDよりもはるかに困難にする。
空間記憶ネットワーク(STMN)について紹介する。
STMNは、ビデオフレームに頻繁に現れる空間的注意散らし器の機能を格納し、時間記憶は、人のビデオの典型的な時間的パターンに最適化された注意を節約する。
空間記憶と時間記憶を利用して、フレームレベルの人物表現を洗練し、洗練されたフレームレベルの特徴をシーケンスレベルの人物表現に集約する。
- 参考スコア(独自算出の注目度): 29.66624606649384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based person re-identification (reID) aims to retrieve person videos
with the same identity as a query person across multiple cameras. Spatial and
temporal distractors in person videos, such as background clutter and partial
occlusions over frames, respectively, make this task much more challenging than
image-based person reID. We observe that spatial distractors appear
consistently in a particular location, and temporal distractors show several
patterns, e.g., partial occlusions occur in the first few frames, where such
patterns provide informative cues for predicting which frames to focus on
(i.e., temporal attentions). Based on this, we introduce a novel Spatial and
Temporal Memory Networks (STMN). The spatial memory stores features for spatial
distractors that frequently emerge across video frames, while the temporal
memory saves attentions which are optimized for typical temporal patterns in
person videos. We leverage the spatial and temporal memories to refine
frame-level person representations and to aggregate the refined frame-level
features into a sequence-level person representation, respectively, effectively
handling spatial and temporal distractors in person videos. We also introduce a
memory spread loss preventing our model from addressing particular items only
in the memories. Experimental results on standard benchmarks, including MARS,
DukeMTMC-VideoReID, and LS-VID, demonstrate the effectiveness of our method.
- Abstract(参考訳): reID(re-based person re-identification)は、複数のカメラにまたがる問い合わせ者と同じアイデンティティを持つ人物の動画を検索することを目的としている。
背景クラッタやフレーム上の部分閉塞といった人物ビデオの空間的および時間的邪魔は、この課題を画像ベースの人物のリードよりも難しくする。
空間的注意散逸が特定の場所に一貫して現れるのを観察し、時間的注意散逸は、例えば、最初の数フレームで部分的閉塞が発生するいくつかのパターンを示し、そのようなパターンは、どのフレームにフォーカスするか(例えば、時間的注意)を予測するための情報的手がかりを提供する。
そこで我々は,STMN(Spatial and Temporal Memory Networks)を提案する。
空間記憶は、ビデオフレームに頻繁に現れる空間的邪魔者の特徴を記憶し、時間記憶は、ビデオの典型的な時間的パターンに最適化された注意を節約する。
空間的および時間的記憶を利用してフレームレベルの人物表現を洗練し、洗練されたフレームレベルの特徴をシーケンスレベルの人物表現に集約し、人物ビデオにおける空間的および時間的邪魔を効果的に処理する。
また,メモリ拡散損失により,モデルがメモリ内でのみ特定の項目に対処できないことも紹介する。
MARS, DukeMTMC-VideoReID, LS-VID などの標準ベンチマーク実験の結果, 本手法の有効性が示された。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - A Flow-Guided Mutual Attention Network for Video-Based Person
Re-Identification [25.217641512619178]
Person ReIDは多くの分析および監視アプリケーションにおいて難しい問題である。
ビデオベースのReIDは最近、特徴識別時間情報をキャプチャできるので、大きな関心を集めている。
本稿では、ReIDのための追加のキューとして、人物の動作パターンを探索する。
論文 参考訳(メタデータ) (2020-08-09T18:58:11Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。