論文の概要: Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification
- arxiv url: http://arxiv.org/abs/2212.09498v1
- Date: Fri, 16 Dec 2022 04:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:51:36.467332
- Title: Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification
- Title(参考訳): ビデオベース人物再同定のための切り換え・集約による特徴異方性学習
- Authors: Minjung Kim, MyeongAh Cho, Sangyoun Lee
- Abstract要約: 映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
- 参考スコア(独自算出の注目度): 9.068045610800667
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In video person re-identification (Re-ID), the network must consistently
extract features of the target person from successive frames. Existing methods
tend to focus only on how to use temporal information, which often leads to
networks being fooled by similar appearances and same backgrounds. In this
paper, we propose a Disentanglement and Switching and Aggregation Network
(DSANet), which segregates the features representing identity and features
based on camera characteristics, and pays more attention to ID information. We
also introduce an auxiliary task that utilizes a new pair of features created
through switching and aggregation to increase the network's capability for
various camera scenarios. Furthermore, we devise a Target Localization Module
(TLM) that extracts robust features against a change in the position of the
target according to the frame flow and a Frame Weight Generation (FWG) that
reflects temporal information in the final representation. Various loss
functions for disentanglement learning are designed so that each component of
the network can cooperate while satisfactorily performing its own role.
Quantitative and qualitative results from extensive experiments demonstrate the
superiority of DSANet over state-of-the-art methods on three benchmark
datasets.
- Abstract(参考訳): 映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,カメラ特性に基づくアイデンティティと特徴を表す特徴を分離し,id情報により多くの注意を払うディスタングル・アンド・スイッチング・アグリゲーション・ネットワーク(dsanet)を提案する。
また,スイッチングとアグリゲーションによって作成される新機能を活用して,様々なカメラシナリオにおけるネットワーク機能を向上させる補助タスクも導入する。
さらに、フレームフローに応じた目標位置の変化に対して頑健な特徴を抽出するターゲットローカライゼーションモジュール(TLM)と、最終表現における時間情報を反映するフレームウェイト生成(FWG)を考案する。
ネットワークの各コンポーネントが、自身の役割を十分に担いながら協調できるように、様々な障害関数を設計する。
大規模実験による定量および定性的な結果は、3つのベンチマークデータセットの最先端手法よりもDSANetの方が優れていることを示す。
関連論文リスト
- Attribute-Text Guided Forgetting Compensation for Lifelong Person Re-Identification [8.841311088024584]
LReID(Lifelong person re-identification)は、静止しないデータから継続的に学習し、異なる環境の個人をマッチングすることを目的としている。
現在のLReID手法は、タスク固有の知識に焦点をあて、ドメインギャップ内の固有のタスク共有表現を無視している。
本稿では,テキスト駆動型グローバル表現と属性関連ローカル表現を探索する,新しい属性テキストガイド型忘れ補償モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:19:09Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Counting with Adaptive Auxiliary Learning [23.715818463425503]
本稿では,オブジェクトカウント問題に対する適応型補助的タスク学習に基づくアプローチを提案する。
本研究では,タスク共有とタスクカスタマイズの両機能学習を実現するために,アダプティブ・アダプティブ・アダプティブ・共有バックボーンネットワークを開発した。
本手法は,現在最先端のタスク学習に基づくカウント手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-08T13:10:17Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z) - AXM-Net: Cross-Modal Context Sharing Attention Network for Person Re-ID [20.700750237972155]
クロスモーダルな人物識別(Re-ID)は、現代のビデオ監視システムにおいて重要である。
主な課題は、人に存在する意味情報に従ってモダリティ間表現を整合させ、背景情報を無視することです。
AXM-Netは、意味的に整列された視覚およびテキスト表現を学習するために設計された新しいCNNベースのアーキテクチャである。
論文 参考訳(メタデータ) (2021-01-19T16:06:39Z) - A Flow-Guided Mutual Attention Network for Video-Based Person
Re-Identification [25.217641512619178]
Person ReIDは多くの分析および監視アプリケーションにおいて難しい問題である。
ビデオベースのReIDは最近、特徴識別時間情報をキャプチャできるので、大きな関心を集めている。
本稿では、ReIDのための追加のキューとして、人物の動作パターンを探索する。
論文 参考訳(メタデータ) (2020-08-09T18:58:11Z) - Temporal Complementary Learning for Video Person Re-Identification [110.43147302200101]
本稿では,連続する映像フレームの相補的特徴を抽出し,映像人物の再同定を行う時間補完学習ネットワークを提案する。
サリエンシ消去操作により、特定の学習者は、前のフレームによって活性化された部分を消去することにより、新規かつ補完的な部分をマイニングする。
テンポラル・サリエンシ・ブースティング(TSB)モジュールは、ビデオフレーム間のサリエント情報を伝播してサリエント機能を強化するように設計されている。
論文 参考訳(メタデータ) (2020-07-18T07:59:01Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。