論文の概要: Exploiting Robust Unsupervised Video Person Re-identification
- arxiv url: http://arxiv.org/abs/2111.05170v1
- Date: Tue, 9 Nov 2021 14:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 15:03:45.036766
- Title: Exploiting Robust Unsupervised Video Person Re-identification
- Title(参考訳): 監視されていないビデオパーソンを再識別する爆発
- Authors: Xianghao Zang, Ge Li, Wei Gao, Xiujun Shu
- Abstract要約: 本稿では,パートモデルと教師なし学習を融合した汎用的なスキームを提案する。
グローバル・アウェア・モジュールは、ローカルレベルの機能の欠点を克服するために提案されている。
PRID2011, iLIDS-VID, DukeMTMC-VideoReID の3つのベンチマークで総合的な実験を行った。
- 参考スコア(独自算出の注目度): 15.378033331385312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video person re-identification (reID) methods usually depend on
global-level features. And many supervised reID methods employed local-level
features and achieved significant performance improvements. However, applying
local-level features to unsupervised methods may introduce an unstable
performance. To improve the performance stability for unsupervised video reID,
this paper introduces a general scheme fusing part models and unsupervised
learning. In this scheme, the global-level feature is divided into equal
local-level feature. A local-aware module is employed to explore the poentials
of local-level feature for unsupervised learning. A global-aware module is
proposed to overcome the disadvantages of local-level features. Features from
these two modules are fused to form a robust feature representation for each
input image. This feature representation has the advantages of local-level
feature without suffering from its disadvantages. Comprehensive experiments are
conducted on three benchmarks, including PRID2011, iLIDS-VID, and
DukeMTMC-VideoReID, and the results demonstrate that the proposed approach
achieves state-of-the-art performance. Extensive ablation studies demonstrate
the effectiveness and robustness of proposed scheme, local-aware module and
global-aware module.
- Abstract(参考訳): reid(unsupervised video person re-identification)メソッドは通常、グローバルレベルの機能に依存する。
また、多くの教師付きreIDメソッドはローカルレベルの機能を採用し、大幅な性能向上を実現した。
しかし、教師なしメソッドにローカルレベル機能を適用すると、不安定なパフォーマンスをもたらす可能性がある。
本稿では,教師なしビデオreidの性能安定性を向上させるため,部分モデルと教師なし学習を融合した汎用スキームを提案する。
このスキームでは、グローバルレベル機能は、同じローカルレベルフィーチャに分割される。
教師なし学習のための局所レベル機能の特長を探るために、ローカルアウェアモジュールが使用される。
地域レベルの機能の欠点を克服するために,グローバルなモジュールを提案する。
これら2つのモジュールの機能は融合され、入力画像ごとにロバストな特徴表現を形成する。
この特徴表現には、その欠点に悩まされることなく、局所的な特徴の利点がある。
PRID 2011, iLIDS-VID, DukeMTMC-VideoReID の3つのベンチマークで総合実験を行い, 提案手法が最先端性能を実現することを示す。
広範なアブレーション研究により,提案手法,ローカルアウェアモジュール,グローバルアウェアモジュールの有効性とロバスト性が実証された。
関連論文リスト
- $\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection [52.14468236527728]
3つのコアモジュールからなる新しいフレームワークX2$-DFDを提案する。
最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。
第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。
第3のモジュールであるWak Feature Supplementing (WFS)は、外部専用の機能を統合することで、低階機能における微調整MLLMの機能を改善する。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Attribute Localization and Revision Network for Zero-Shot Learning [13.530912616208722]
ゼロショット学習により、モデルは属性などの補助的な意味情報の助けを借りて、目に見えないカテゴリを認識できる。
本稿では,局所的な特徴とグローバルな特徴の選択がゼロサムゲームではなく,グローバルな特徴が属性の理解に寄与することを発見した。
論文 参考訳(メタデータ) (2023-10-11T14:50:52Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant
Descriptor [6.326554177747699]
SphereVLAD++ は注目度が高められた視点不変位置認識手法である。
SphereVLAD++は、小さな視点や完全に逆の視点差の下で、最先端の3D位置認識手法をすべて上回ることを示す。
論文 参考訳(メタデータ) (2022-07-06T20:32:43Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - LoGG3D-Net: Locally Guided Global Descriptor Learning for 3D Place
Recognition [31.105598103211825]
追加のトレーニング信号(局所的整合性損失)が、リビジョン間で一貫性のある局所的特徴の学習にネットワークを導くことができることを示す。
私たちは、LoGG3D-Netと呼ばれるエンドツーエンドのトレーニング可能なアーキテクチャでアプローチを定式化します。
論文 参考訳(メタデータ) (2021-09-17T03:32:43Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Self-Supervised Features Improve Open-World Learning [13.880789191591088]
本稿では,インクリメンタル学習,アウトオブディストリビューション検出,オープンワールド学習を組み合わせた統一オープンワールドフレームワークを提案する。
教師なしの特徴表現の下では、未知をラベル外空間または分布外検出のいずれかに分類する。
私たちのパイプラインのインクリメンタルな学習コンポーネントは、imagenet-100プロトコルの最先端と比較して実行するゼロ例のオンラインモデルです。
論文 参考訳(メタデータ) (2021-02-15T21:03:05Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Learning Diverse Features with Part-Level Resolution for Person
Re-Identification [10.940478376944133]
本稿では,PLR-OSNetと呼ばれる軽量ネットワークアーキテクチャを構築することを提案する。
Omni-Scale Network(OSNet)上のPart-Level機能解決(Part-Level feature Resolution)というアイデアに基づいて、機能多様性を実現する。
Market1501、DukeMTMC-reID、CUHK03など、人気のある人物Re-IDデータセットの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-01-21T11:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。