論文の概要: Not 3D Re-ID: a Simple Single Stream 2D Convolution for Robust Video
Re-identification
- arxiv url: http://arxiv.org/abs/2008.06318v2
- Date: Mon, 17 Aug 2020 10:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:29:06.856287
- Title: Not 3D Re-ID: a Simple Single Stream 2D Convolution for Robust Video
Re-identification
- Title(参考訳): Not 3D Re-ID:ロバストビデオ再識別のための単純なシングルストリーム2D畳み込み
- Authors: Toby P. Breckon and Aishah Alsehaim
- Abstract要約: ビデオベースのRe-IDは、以前の画像ベースの再識別手法の拡張である。
ResNet50-IBNアーキテクチャを利用した単純な単一ストリーム2D畳み込みネットワークの優れた性能を示す。
われわれのアプローチは、データセット間での最良のビデオRe-IDの実践と学習の伝達を利用して、既存の最先端のアプローチを上回ります。
- 参考スコア(独自算出の注目度): 14.785070524184649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based person re-identification has received increasing attention
recently, as it plays an important role within surveillance video analysis.
Video-based Re-ID is an expansion of earlier image-based re-identification
methods by learning features from a video via multiple image frames for each
person. Most contemporary video Re-ID methods utilise complex CNNbased network
architectures using 3D convolution or multibranch networks to extract
spatial-temporal video features. By contrast, in this paper, we illustrate
superior performance from a simple single stream 2D convolution network
leveraging the ResNet50-IBN architecture to extract frame-level features
followed by temporal attention for clip level features. These clip level
features can be generalised to extract video level features by averaging
without any significant additional cost. Our approach uses best video Re-ID
practice and transfer learning between datasets to outperform existing
state-of-the-art approaches on the MARS, PRID2011 and iLIDS-VID datasets with
89:62%, 97:75%, 97:33% rank-1 accuracy respectively and with 84:61% mAP for
MARS, without reliance on complex and memory intensive 3D convolutions or
multi-stream networks architectures as found in other contemporary work.
Conversely, our work shows that global features extracted by the 2D convolution
network are a sufficient representation for robust state of the art video
Re-ID.
- Abstract(参考訳): 近年,監視ビデオ解析において重要な役割を担っている映像ベースの人物再同定が注目されている。
ビデオベースのRe-IDは、人物ごとに複数の画像フレームを介してビデオから特徴を学習することで、以前の画像ベースの再識別方法の拡張である。
現代のビデオRe-ID手法では、複雑なCNNベースのネットワークアーキテクチャを3D畳み込みやマルチブランチネットワークを用いて時空間映像の特徴を抽出する。
本稿では,resnet50-ibnアーキテクチャを用いた単純な単一ストリーム2次元畳み込みネットワークによるフレームレベルの特徴抽出と,クリップレベルの特徴に対する時間的注意による性能改善について述べる。
これらのクリップレベルの機能は、追加のコストなしで平均化することでビデオレベルの機能を抽出するために一般化することができる。
提案手法は,MARS,PRID2011,iLIDS-VIDデータセットの89:62%,97:75%,97:33%のランク-1精度,84:61%のmAPをMARSの複雑な3D畳み込みやマルチストリームネットワークアーキテクチャに頼らずに,データセット間の最良のビデオ再ID実践とデータ転送学習を用いて実現した。
逆に,2次元畳み込みネットワークによって抽出されたグローバル機能は,映像のロバストな状態に対する十分な表現であることを示す。
関連論文リスト
- MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Learning Modal-Invariant and Temporal-Memory for Video-based
Visible-Infrared Person Re-Identification [46.49866514866999]
主にビデオベースのクロスモーダル人物Re-ID法について研究する。
トラックレット内のフレームの増加により,性能が向上することが証明された。
モーダル不変部分空間に2つのモダリティを投影する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T04:43:52Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - A Flow-Guided Mutual Attention Network for Video-Based Person
Re-Identification [25.217641512619178]
Person ReIDは多くの分析および監視アプリケーションにおいて難しい問題である。
ビデオベースのReIDは最近、特徴識別時間情報をキャプチャできるので、大きな関心を集めている。
本稿では、ReIDのための追加のキューとして、人物の動作パターンを探索する。
論文 参考訳(メタデータ) (2020-08-09T18:58:11Z) - Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。
ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。
本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。
本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文 参考訳(メタデータ) (2020-07-15T11:30:40Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。