論文の概要: Enhancing Visible-Infrared Person Re-identification with Modality- and Instance-aware Visual Prompt Learning
- arxiv url: http://arxiv.org/abs/2406.12316v1
- Date: Tue, 18 Jun 2024 06:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:25:52.437106
- Title: Enhancing Visible-Infrared Person Re-identification with Modality- and Instance-aware Visual Prompt Learning
- Title(参考訳): モダリティとインスタンス認識型視覚プロンプト学習による可視赤外人物再識別の促進
- Authors: Ruiqi Wu, Bingliang Jiao, Wenxuan Wang, Meng Liu, Peng Wang,
- Abstract要約: MIP(Modality-aware and Instance-aware Visual Prompts)ネットワークについて紹介する。
MIPは、不変情報と特定情報の両方を効果的に利用して識別するように設計されている。
提案するMIPは,ほとんどの最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 29.19130646630545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Visible-Infrared Person Re-identification (VI ReID) aims to match visible and infrared images of the same pedestrians across non-overlapped camera views. These two input modalities contain both invariant information, such as shape, and modality-specific details, such as color. An ideal model should utilize valuable information from both modalities during training for enhanced representational capability. However, the gap caused by modality-specific information poses substantial challenges for the VI ReID model to handle distinct modality inputs simultaneously. To address this, we introduce the Modality-aware and Instance-aware Visual Prompts (MIP) network in our work, designed to effectively utilize both invariant and specific information for identification. Specifically, our MIP model is built on the transformer architecture. In this model, we have designed a series of modality-specific prompts, which could enable our model to adapt to and make use of the specific information inherent in different modality inputs, thereby reducing the interference caused by the modality gap and achieving better identification. Besides, we also employ each pedestrian feature to construct a group of instance-specific prompts. These customized prompts are responsible for guiding our model to adapt to each pedestrian instance dynamically, thereby capturing identity-level discriminative clues for identification. Through extensive experiments on SYSU-MM01 and RegDB datasets, the effectiveness of both our designed modules is evaluated. Additionally, our proposed MIP performs better than most state-of-the-art methods.
- Abstract(参考訳): Visible-Infrared Person Re-identification (VI ReID)は、同じ歩行者の視界と赤外線の画像とを、オーバーラップしないカメラビューでマッチングすることを目的としている。
これら2つの入力モダリティは、形状のような不変情報と色のようなモダリティ固有の詳細の両方を含む。
理想的なモデルは、訓練中に両方のモダリティから貴重な情報を活用して表現能力を高めるべきである。
しかし、モダリティ固有の情報によって引き起こされるギャップは、VI ReIDモデルが異なるモダリティ入力を同時に処理する上で大きな課題となる。
そこで本研究では,MIP(Modality-aware and Instance-aware Visual Prompts)ネットワークを導入した。
特に、我々のMIPモデルはトランスフォーマーアーキテクチャに基づいて構築されている。
本モデルでは,モーダリティ固有の情報に適応し,異なるモーダリティ入力に固有の情報を利用することが可能な一連のモーダリティ固有プロンプトを設計し,モーダリティギャップによる干渉を低減し,より良い識別を実現する。
さらに、各歩行者の特徴を利用して、インスタンス固有のプロンプトのグループを構築します。
これらのカスタマイズされたプロンプトは、モデルに各歩行者のインスタンスに動的に対応させ、識別のためのアイデンティティレベルの識別ヒントをキャプチャする役割を担います。
SYSU-MM01とRegDBデータセットの広範な実験を通じて、設計した両方のモジュールの有効性を評価する。
さらに,提案手法は最先端手法よりも優れた性能を示した。
関連論文リスト
- Dynamic Identity-Guided Attention Network for Visible-Infrared Person Re-identification [17.285526655788274]
Visible-infrared person re-identification (VI-ReID) は、可視光と赤外線の同一性を持つ人物をマッチングすることを目的としている。
既存の方法は一般的に、画像や特徴レベルでのクロスモーダルな違いを橋渡ししようとする。
我々は、動的ID誘導型注意ネットワーク(DIAN)を導入し、アイデンティティ誘導型およびモダリティ一貫性のある埋め込みをマイニングする。
論文 参考訳(メタデータ) (2024-05-21T12:04:56Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Transferring Modality-Aware Pedestrian Attentive Learning for
Visible-Infrared Person Re-identification [43.05147831905626]
本稿では,トランスファーリング・モダリティを意識した歩行者注意学習(TMPA)モデルを提案する。
TMPAは、欠落したモダリティ固有の特徴を効率的に補うために歩行者地域に焦点を当てている。
ベンチマークSYSU-MM01とRegDBデータセットを用いて実験を行い,提案したTMPAモデルの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-12T07:15:17Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Learning Cross-modality Information Bottleneck Representation for
Heterogeneous Person Re-Identification [61.49219876388174]
Visible-Infrared person re-identification (VI-ReID)は、インテリジェントビデオ監視において重要かつ困難な課題である。
既存の手法は主に共有特徴空間の学習に重点を置いており、可視光と赤外光の相違を減らす。
本稿では,新しい相互情報・モダリティコンセンサスネットワーク,すなわちCMInfoNetを提案し,モダリティ不変な同一性の特徴を抽出する。
論文 参考訳(メタデータ) (2023-08-29T06:55:42Z) - Shape-Erased Feature Learning for Visible-Infrared Person
Re-Identification [90.39454748065558]
体型は、VI-ReIDにとって重要なモダリティシェードの1つである。
本稿では,2つの部分空間におけるモダリティ共有特徴を関連づける形状学習パラダイムを提案する。
SYSU-MM01, RegDB, HITSZ-VCMデータセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-09T10:22:10Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - CMTR: Cross-modality Transformer for Visible-infrared Person
Re-identification [38.96033760300123]
可視赤外人物再識別のための相互モダリティトランスフォーマー法(CMTR)
我々は,モダリティの情報をエンコードするために,トークン埋め込みと融合した新しいモダリティ埋め込みを設計する。
提案するCMTRモデルの性能は,既存のCNN方式をはるかに上回っている。
論文 参考訳(メタデータ) (2021-10-18T03:12:59Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。