論文の概要: Temporal Complementary Learning for Video Person Re-Identification
- arxiv url: http://arxiv.org/abs/2007.09357v1
- Date: Sat, 18 Jul 2020 07:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 05:43:38.258710
- Title: Temporal Complementary Learning for Video Person Re-Identification
- Title(参考訳): 映像人物再同定のための時間相補学習
- Authors: Ruibing Hou and Hong Chang and Bingpeng Ma and Shiguang Shan and Xilin
Chen
- Abstract要約: 本稿では,連続する映像フレームの相補的特徴を抽出し,映像人物の再同定を行う時間補完学習ネットワークを提案する。
サリエンシ消去操作により、特定の学習者は、前のフレームによって活性化された部分を消去することにより、新規かつ補完的な部分をマイニングする。
テンポラル・サリエンシ・ブースティング(TSB)モジュールは、ビデオフレーム間のサリエント情報を伝播してサリエント機能を強化するように設計されている。
- 参考スコア(独自算出の注目度): 110.43147302200101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a Temporal Complementary Learning Network that extracts
complementary features of consecutive video frames for video person
re-identification. Firstly, we introduce a Temporal Saliency Erasing (TSE)
module including a saliency erasing operation and a series of ordered learners.
Specifically, for a specific frame of a video, the saliency erasing operation
drives the specific learner to mine new and complementary parts by erasing the
parts activated by previous frames. Such that the diverse visual features can
be discovered for consecutive frames and finally form an integral
characteristic of the target identity. Furthermore, a Temporal Saliency
Boosting (TSB) module is designed to propagate the salient information among
video frames to enhance the salient feature. It is complementary to TSE by
effectively alleviating the information loss caused by the erasing operation of
TSE. Extensive experiments show our method performs favorably against
state-of-the-arts. The source code is available at
https://github.com/blue-blue272/VideoReID-TCLNet.
- Abstract(参考訳): 本稿では,映像人物再同定のための連続映像フレームの相補的特徴を抽出する時間的相補学習ネットワークを提案する。
まず,時間的衛生消去(TSE)モジュールについて紹介する。
具体的には、ビデオの特定のフレームに対して、サリエンシー消去操作は、特定の学習者に、前のフレームで起動された部分を消去して、新しい補完的な部品をマイニングするように促す。
連続するフレームに対して多様な視覚的特徴を発見でき、最終的にはターゲットアイデンティティの積分特性を形成する。
さらに、映像フレーム間のサルエント情報を伝搬させ、サルエント特性を高めるようにtsb(temporal saliency boosting)モジュールを設計。
TSEの消去操作による情報損失を効果的に軽減し、TSEを補完する。
広範な実験により,本手法は最新技術に好適な効果を示した。
ソースコードはhttps://github.com/blue-blue272/videoreid-tclnetで入手できる。
関連論文リスト
- Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video [10.287675722826028]
本稿では,セミデカップリング型時間的知識蒸留を用いて,高品質なクラスアクティベーションマップ(CAM)の予測を行うために,VDST-Net(Video Spatio-Temporal Disment Networks)を導入している。
提案するフレームワークは,一般的な参照データセットや,オブジェクトが平均60%未満の注釈付きフレームに存在する,より困難な手術用ビデオデータセット上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:52:32Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - TF-CLIP: Learning Text-free CLIP for Video-based Person
Re-Identification [60.5843635938469]
ビデオベースのReIDのための一段階のテキストフリーCLIP学習フレームワークTF-CLIPを提案する。
より具体的には、テキスト機能を置き換えるために、アイデンティティ固有のシーケンス機能をCLIPメモリとして抽出する。
提案手法は,MARS,LS-VID,iLIDS-VIDの他の最先端手法よりも優れた結果を示す。
論文 参考訳(メタデータ) (2023-12-15T09:10:05Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。