論文の概要: PS-ReID: Advancing Person Re-Identification and Precise Segmentation with Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2503.21595v2
- Date: Sun, 31 Aug 2025 12:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.259787
- Title: PS-ReID: Advancing Person Re-Identification and Precise Segmentation with Multimodal Retrieval
- Title(参考訳): PS-ReID:マルチモーダル検索による人物再同定と高精度セグメンテーションの促進
- Authors: Jincheng Yan, Yun Wang, Xiaoyan Luo, Yu-Wing Tai,
- Abstract要約: 人物再識別(ReID)は、セキュリティ監視や刑事捜査などの応用において重要な役割を果たす。
画像とテキストの入力を組み合わせたマルチモーダルモデルであるbf PS-ReIDを提案する。
実験の結果、PS-ReIDは、ReIDとセグメンテーションタスクの両方において、ユニモーダルクエリベースのモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 38.530536338075684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification (ReID) plays a critical role in applications such as security surveillance and criminal investigations. Most traditional image-based ReID methods face challenges including occlusions and lighting changes, while text provides complementary information to mitigate these issues. However, the integration of both image and text modalities remains underexplored. To address this gap, we propose {\bf PS-ReID}, a multimodal model that combines image and text inputs to enhance ReID performance. In contrast to existing ReID methods limited by cropped pedestrian images, our PS-ReID focuses on full-scene settings and introduces a multimodal ReID task that incorporates segmentation, enabling precise feature extraction of the queried individual, even under challenging conditions such as occlusion. To this end, our model adopts a dual-path asymmetric encoding scheme that explicitly separates query and target roles: the query branch captures identity-discriminative cues, while the target branch performs holistic scene reasoning. Additionally, a token-level ReID loss supervises identity-aware tokens, coupling retrieval and segmentation to yield masks that are both spatially precise and identity-consistent. To facilitate systematic evaluation, we construct M2ReID, currently the largest full-scene multimodal ReID dataset, with over 200K images and 4,894 identities, featuring multimodal queries and high-quality segmentation masks. Experimental results demonstrate that PS-ReID significantly outperforms unimodal query-based models in both ReID and segmentation tasks. The model excels in challenging real-world scenarios such as occlusion, low lighting, and background clutter, offering a robust and flexible solution for person retrieval and segmentation. All code, models, and datasets will be publicly available.
- Abstract(参考訳): 人物再識別(ReID)は、セキュリティ監視や刑事捜査などの応用において重要な役割を果たす。
従来の画像ベースのReIDメソッドのほとんどは、閉塞や照明変更などの課題に直面し、テキストはこれらの問題を緩和するための補完的な情報を提供する。
しかし、画像とテキストのモダリティの統合はいまだ未定である。
このギャップに対処するために,画像とテキストの入力を組み合わせたマルチモーダルモデルである {\bf PS-ReID} を提案する。
刈り取られた歩行者画像によって制限された既存のReID手法とは対照的に、PS-ReIDはフルシーン設定に焦点を当て、セグメンテーションを組み込んだマルチモーダルReIDタスクを導入し、オクルージョンのような困難な条件下であっても、クエリされた個人の正確な特徴抽出を可能にする。
この目的のために、我々のモデルは、クエリとターゲットロールを明示的に分離するデュアルパス非対称符号化方式を採用し、クエリブランチは、個人識別的なキューをキャプチャし、ターゲットブランチは、全体論的シーン推論を実行する。
さらに、トークンレベルのReID損失は、アイデンティティを意識したトークン、結合検索、セグメンテーションを監督し、空間的に正確かつアイデンティティに一貫性のあるマスクを出力する。
システム評価を容易にするため,200K以上の画像と4,894個のIDを持つマルチモーダルクエリと高品質セグメンテーションマスクを備えた,現在最大規模のマルチモーダルReIDデータセットであるM2ReIDを構築した。
実験の結果、PS-ReIDは、ReIDとセグメンテーションタスクの両方において、ユニモーダルクエリベースのモデルよりも大幅に優れていた。
このモデルは、隠蔽、低照度、背景クラッタといった現実のシナリオを克服し、人物の検索とセグメンテーションのための堅牢で柔軟なソリューションを提供する。
すべてのコード、モデル、データセットが公開される。
関連論文リスト
- RegistrationMamba: A Mamba-based Registration Framework Integrating Multi-Expert Feature Learning for Cross-Modal Remote Sensing Images [39.5745769925092]
クロスモーダルリモートセンシング画像(CRSI)の登録は、マルチモーダル画像アプリケーションにとって重要である。
既存の方法は、主に畳み込みニューラルネットワーク(CNN)またはトランスフォーマーアーキテクチャを採用して、登録のための識別的特徴を抽出する。
本稿では,マルチエキスパート機能学習を統合した状態空間モデル(SSM)に基づく新しいMambaアーキテクチャであるRegistrationMambaを提案する。
論文 参考訳(メタデータ) (2025-07-06T13:59:51Z) - Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Enhancing Person Re-Identification via Uncertainty Feature Fusion and Auto-weighted Measure Combination [1.183049138259841]
人物再識別(Re-ID)は、監視システムにおいて、異なるカメラビューで同一人物を特定することを含む、困難なタスクである。
本稿では,不確定特徴融合法(UFFM)と自動重み付け器(AMC)によるReIDモデルの能力を向上する新しい手法を提案する。
本手法は,人物の再識別データセットで評価した場合のランク@1精度と平均精度(mAP)を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-02T09:09:48Z) - Robust Ensemble Person Re-Identification via Orthogonal Fusion with Occlusion Handling [4.431087385310259]
排除は、個人再識別(ReID)における大きな課題の1つとして残されている。
本稿では,CNN と Transformer アーキテクチャを併用し,ロバストな特徴表現を生成する深層アンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-03-29T18:38:59Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
クロスモダリティの人物再識別(ReID)システムはRGB画像に基づいている。
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。