論文の概要: BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video
Person Re-Identification
- arxiv url: http://arxiv.org/abs/2104.14783v1
- Date: Fri, 30 Apr 2021 06:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 23:17:00.330117
- Title: BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video
Person Re-Identification
- Title(参考訳): BiCnet-TKS:映像人物再同定のための空間時間表現の学習
- Authors: Ruibing Hou, Hong Chang, Bingpeng Ma, Rui Huang and Shiguang Shan
- Abstract要約: 映像人物再識別(reID)のための効率的な時空間表現法を提案する。
空間相補性モデリングのための双方向相補性ネットワーク(BiCnet)を提案する。
BiCnet-TKSは、約50%の計算量で最先端の性能を発揮する。
- 参考スコア(独自算出の注目度): 86.73532136686438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present an efficient spatial-temporal representation for
video person re-identification (reID). Firstly, we propose a Bilateral
Complementary Network (BiCnet) for spatial complementarity modeling.
Specifically, BiCnet contains two branches. Detail Branch processes frames at
original resolution to preserve the detailed visual clues, and Context Branch
with a down-sampling strategy is employed to capture long-range contexts. On
each branch, BiCnet appends multiple parallel and diverse attention modules to
discover divergent body parts for consecutive frames, so as to obtain an
integral characteristic of target identity. Furthermore, a Temporal Kernel
Selection (TKS) block is designed to capture short-term as well as long-term
temporal relations by an adaptive mode. TKS can be inserted into BiCnet at any
depth to construct BiCnetTKS for spatial-temporal modeling. Experimental
results on multiple benchmarks show that BiCnet-TKS outperforms
state-of-the-arts with about 50% less computations. The source code is
available at https://github.com/ blue-blue272/BiCnet-TKS.
- Abstract(参考訳): 本稿では,映像人物再識別(reID)のための効率的な時空間表現を提案する。
まず,空間的相補性モデリングのためのBilateral Complementary Network (BiCnet)を提案する。
具体的には、BiCnetには2つのブランチがある。
詳細ブランチプロセスフレーム 詳細な視覚手がかりを保存するためにオリジナルの解像度で、ダウンサンプリング戦略を備えたコンテキストブランチを使用して、長距離コンテキストをキャプチャする。
各ブランチにおいて、BiCnetは複数の並列かつ多様な注意モジュールを付加し、連続するフレームの分岐体部分を発見し、ターゲットアイデンティティの積分特性を得る。
さらに、時間的カーネル選択(TKS)ブロックは、適応モードにより、短期および長期の時間的関係をキャプチャするように設計されている。
TKSは任意の深さでBiCnetに挿入することができ、空間時間モデリングのためにBiCnetTKSを構築することができる。
複数のベンチマークによる実験結果から,BiCnet-TKSの最先端性能は約50%低下した。
ソースコードはhttps://github.com/ blue-blue272/BiCnet-TKSで入手できる。
関連論文リスト
- Bilateral Network with Residual U-blocks and Dual-Guided Attention for
Real-time Semantic Segmentation [18.393208069320362]
注意計算によって導かれる2分岐アーキテクチャのための新しい融合機構を設計する。
正確には、DGA(Dual-Guided Attention)モジュールを使用して、いくつかのマルチスケール変換を置き換えることを提案した。
Cityscapes と CamVid のデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-31T09:20:59Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action
Segmentation [20.182928938110923]
時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。
我々は,デコーダ出力の粗大なアンサンブルを特徴とする,C2F-TCNというエンコーダ-デコーダスタイルのアーキテクチャを提案する。
アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。
論文 参考訳(メタデータ) (2022-12-20T14:53:46Z) - Towards Similarity-Aware Time-Series Classification [51.2400839966489]
時系列データマイニングの基本課題である時系列分類(TSC)について検討する。
グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化するフレームワークであるSimTSCを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:14:57Z) - Multi-Scale Local-Temporal Similarity Fusion for Continuous Sign
Language Recognition [4.059599144668737]
連続手話認識(continuous sign language recognition)は、手話動画を順序付けられた光沢シーケンスに書き起こす公的な重要なタスクである。
1次元畳み込みネットワーク(1D-CNN)を採用して、シーケンシャルフレームを時間的に融合させることが期待できる方法である。
本稿では,このタスクの時間的類似性を通じて局所的特徴を適応的に融合することを提案する。
論文 参考訳(メタデータ) (2021-07-27T12:06:56Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Batch Coherence-Driven Network for Part-aware Person Re-Identification [79.33809815035127]
既存のパートアウェアの人物再識別方法は、通常、ボディ部分の検出と部分レベルの特徴抽出という2つのステップを使用する。
トレーニングフェーズとテストフェーズの両方で身体の一部をバイパスし,セマンティックに整合した機能を実現するNetworkBCDNetを提案する。
論文 参考訳(メタデータ) (2020-09-21T09:04:13Z) - ASAP-Net: Attention and Structure Aware Point Cloud Sequence
Segmentation [49.15948235059343]
我々は、ASAPと呼ばれるフレキシブルモジュールにより、ポイントテンポラルクラウド機能をさらに改善する。
我々のASAPモジュールは、フレーム間の比較的情報性の高い局所的特徴を連続的に融合させるために、注意深い時間的埋め込み層を含んでいる。
本稿では、ポイントクラウドシーケンシャルセグメンテーションのための異なる計算バックボーンネットワークを持つASAPモジュールの一般化能力を示す。
論文 参考訳(メタデータ) (2020-08-12T07:37:16Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。