論文の概要: Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2107.11878v1
- Date: Sun, 25 Jul 2021 19:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 00:23:24.803734
- Title: Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification
- Title(参考訳): 映像ベース人物再同定のための時空間表現因子化
- Authors: Abhishek Aich, Meng Zheng, Srikrishna Karanam, Terrence Chen, Amit K.
Roy-Chowdhury, Ziyan Wu
- Abstract要約: 本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
- 参考スコア(独自算出の注目度): 55.01276167336187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite much recent progress in video-based person re-identification (re-ID),
the current state-of-the-art still suffers from common real-world challenges
such as appearance similarity among various people, occlusions, and frame
misalignment. To alleviate these problems, we propose Spatio-Temporal
Representation Factorization module (STRF), a flexible new computational unit
that can be used in conjunction with most existing 3D convolutional neural
network architectures for re-ID. The key innovations of STRF over prior work
include explicit pathways for learning discriminative temporal and spatial
features, with each component further factorized to capture complementary
person-specific appearance and motion information. Specifically, temporal
factorization comprises two branches, one each for static features (e.g., the
color of clothes) that do not change much over time, and dynamic features
(e.g., walking patterns) that change over time. Further, spatial factorization
also comprises two branches to learn both global (coarse segments) as well as
local (finer segments) appearance features, with the local features
particularly useful in cases of occlusion or spatial misalignment. These two
factorization operations taken together result in a modular architecture for
our parameter-wise economic STRF unit that can be plugged in between any two 3D
convolutional layers, resulting in an end-to-end learning framework. We
empirically show that STRF improves performance of various existing baseline
architectures while demonstrating new state-of-the-art results using standard
person re-identification evaluation protocols on three benchmarks.
- Abstract(参考訳): ビデオベースの人物再同定(re-id)の進歩にもかかわらず、現在の最先端技術は、様々な人々の間での外観の類似性、オクルージョン、フレームの誤認といった一般的な現実世界の課題に苦しめられている。
これらの問題を緩和するために,既存の3次元畳み込みニューラルネットワークアーキテクチャと組み合わせてre-IDのためのフレキシブルな新しい計算ユニットであるspatio-Temporal Representation Factorization Module (STRF)を提案する。
先行研究におけるstrfの重要な革新は、識別的時間的特徴と空間的特徴を学習するための明示的な経路であり、各要素は補足的な人物特有の外観と動き情報を捉えるためにさらに分解される。
具体的には、時間分解は、時間とともに大きく変化しない静的特徴(例えば、服の色)と、時間とともに変化する動的特徴(例えば、歩行パターン)の2つの枝からなる。
さらに、空間因子分解は、グローバル(コアセグメンテーション)とローカル(フィンガーセグメント)の外観特徴の両方を学ぶ2つの分枝を含み、その局所的特徴は、特に咬合や空間的不均衡の場合に有用である。
これら2つの分解処理は、パラメータワイド経済STRFユニットのモジュラーアーキテクチャとなり、任意の2つの3次元畳み込み層の間に接続可能となり、エンドツーエンドの学習フレームワークとなる。
実験により,STRFは,3つのベンチマーク上での標準人物識別評価プロトコルを用いて,様々なベースラインアーキテクチャの性能を向上することを示す。
関連論文リスト
- Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Hierarchical Spatio-Temporal Representation Learning for Gait
Recognition [6.877671230651998]
歩行認識は、個人を独自の歩行スタイルで識別する生体計測技術である。
粗いものから細かいものまで歩行特徴を抽出する階層的時間的表現学習フレームワークを提案する。
本手法は,モデル精度と複雑性の適切なバランスを維持しつつ,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-07-19T09:30:00Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - A persistent homology-based topological loss for CNN-based multi-class
segmentation of CMR [5.898114915426535]
心臓磁気共鳴(CMR)画像のマルチクラスセグメンテーションは、既知の構造と構成を持つ解剖学的構成要素にデータの分離を求める。
最も一般的なCNNベースの手法は、解剖を特徴付ける空間的に拡張された特徴を無視した画素ワイズ損失関数を用いて最適化されている。
これらのアプローチは、全てのクラスラベルとクラスラベルペアのリッチなトポロジカル記述を構築することで、マルチクラスセグメンテーションのタスクに拡張する。
論文 参考訳(メタデータ) (2021-07-27T09:21:38Z) - 3D-ANAS: 3D Asymmetric Neural Architecture Search for Fast Hyperspectral
Image Classification [5.727964191623458]
ハイパースペクトル画像はスペクトルと空間情報を豊富に含み、土地被覆分類において不定の役割を果たす。
近年,ディープラーニング技術に基づいて,有望な性能を示すHSI分類手法が提案されている。
1)ほとんどのディープラーニングモデルのアーキテクチャは手作業で設計されており、専門知識に依存しており、比較的退屈である。
論文 参考訳(メタデータ) (2021-01-12T04:15:40Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。