論文の概要: A Versatile Framework for Multi-scene Person Re-identification
- arxiv url: http://arxiv.org/abs/2403.11121v1
- Date: Sun, 17 Mar 2024 07:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:35:30.747890
- Title: A Versatile Framework for Multi-scene Person Re-identification
- Title(参考訳): マルチシーン人物再識別のためのVersatile Framework
- Authors: Wei-Shi Zheng, Junkai Yan, Yi-Xing Peng,
- Abstract要約: 人物再識別(ReID)は、重複しないカメラビュー間で同一人物の画像の関連を学習するために、10年間にわたって広く開発されてきた。
多くのReID変種の性能にもかかわらず、これらの変種は典型的には明確に機能し、他の問題にも適用できない。
この研究は、このような問題を解決するために多目的ReIDモデルを学習する最初の試みに寄与する。
- 参考スコア(独自算出の注目度): 30.74494316484783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person Re-identification (ReID) has been extensively developed for a decade in order to learn the association of images of the same person across non-overlapping camera views. To overcome significant variations between images across camera views, mountains of variants of ReID models were developed for solving a number of challenges, such as resolution change, clothing change, occlusion, modality change, and so on. Despite the impressive performance of many ReID variants, these variants typically function distinctly and cannot be applied to other challenges. To our best knowledge, there is no versatile ReID model that can handle various ReID challenges at the same time. This work contributes to the first attempt at learning a versatile ReID model to solve such a problem. Our main idea is to form a two-stage prompt-based twin modeling framework called VersReID. Our VersReID firstly leverages the scene label to train a ReID Bank that contains abundant knowledge for handling various scenes, where several groups of scene-specific prompts are used to encode different scene-specific knowledge. In the second stage, we distill a V-Branch model with versatile prompts from the ReID Bank for adaptively solving the ReID of different scenes, eliminating the demand for scene labels during the inference stage. To facilitate training VersReID, we further introduce the multi-scene properties into self-supervised learning of ReID via a multi-scene prioris data augmentation (MPDA) strategy. Through extensive experiments, we demonstrate the success of learning an effective and versatile ReID model for handling ReID tasks under multi-scene conditions without manual assignment of scene labels in the inference stage, including general, low-resolution, clothing change, occlusion, and cross-modality scenes. Codes and models are available at https://github.com/iSEE-Laboratory/VersReID.
- Abstract(参考訳): 人物再識別(ReID)は、重複しないカメラビュー間で同一人物の画像の関連を学習するために、10年間にわたって広く開発されてきた。
カメラビュー間の画像間の大きなばらつきを克服するため、解像度変化、衣服の変化、閉塞、モダリティ変化など、さまざまな課題を解決するために、ReIDモデルの山々が開発された。
多くのReID変種の性能にもかかわらず、これらの変種は典型的には明確に機能し、他の問題にも適用できない。
私たちの知る限りでは、さまざまなReID課題を同時に処理できる汎用的なReIDモデルはありません。
この研究は、このような問題を解決するために多目的ReIDモデルを学習する最初の試みに寄与する。
主なアイデアは、VersReIDと呼ばれる2段階のプロンプトベースのツインモデリングフレームワークを作ることです。
我々のVersReIDはまずシーンラベルを利用して、様々なシーンを扱うための豊富な知識を含むReID Bankを訓練します。
第2段階では、異なるシーンのReIDを適応的に解決するために、ReID Bankから多目的プロンプトを付加したV-Branchモデルを蒸留し、推論段階でのシーンラベルの要求を解消する。
VersReIDのトレーニングを容易にするため,マルチシーンデータ拡張(MPDA)戦略により,マルチシーン特性をReIDの自己教師型学習に導入する。
広範にわたる実験を通じて,多場面環境下でのReIDタスクの処理に有効なReIDモデルが,一般,低解像度,衣服の変化,隠蔽,クロスモダリティシーンを含む推論段階において,シーンラベルを手作業で割り当てることなく学習できることを実証した。
コードとモデルはhttps://github.com/iSEE-Laboratory/VersReIDで公開されている。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - Unleashing the Potential of Unsupervised Pre-Training with
Intra-Identity Regularization for Person Re-Identification [10.045028405219641]
我々は、UP-ReIDと呼ばれる対照的学習(CL)パイプラインに基づいて、ReIDのための教師なし事前学習フレームワークを設計する。
UP-ReIDにI$2$-の正則化を導入し,大域的な画像的側面と局所的なパッチ的側面の2つの制約としてインスタンス化する。
我々のUP-ReID事前学習モデルは、下流のReID微調整の利点を大いに生かし、最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2021-12-01T07:16:37Z) - Learning to Disentangle Scenes for Person Re-identification [15.378033331385312]
本稿では,人物再識別タスク(ReID)の分割・調整を提案する。
我々は複数の自己超越操作を用いて、異なる課題をシミュレートし、異なるネットワークを用いて各課題に対処する。
1つのマスターブランチと2つのサーヴァントブランチを含む一般的なマルチブランチネットワークが、異なるシーンを扱うために導入された。
論文 参考訳(メタデータ) (2021-11-10T01:17:10Z) - Apparel-invariant Feature Learning for Apparel-changed Person
Re-identification [70.16040194572406]
ほとんどのパブリックなReIDデータセットは、人の外観がほとんど変化しない短時間のウィンドウで収集される。
ショッピングモールのような現実世界の応用では、同じ人の服装が変化し、異なる人が同様の服を着ることがある。
着替えなどの場合や、類似の服を着ている場合などにおいて、アパレル不変の人物表現を学ぶことは極めて重要である。
論文 参考訳(メタデータ) (2020-08-14T03:49:14Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。