論文の概要: Modality-Transition Representation Learning for Visible-Infrared Person Re-Identification
- arxiv url: http://arxiv.org/abs/2511.02685v1
- Date: Tue, 04 Nov 2025 16:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.101325
- Title: Modality-Transition Representation Learning for Visible-Infrared Person Re-Identification
- Title(参考訳): 可視赤外人物再同定のためのモダリティ・トランジション表現学習
- Authors: Chao Yuan, Zanwu Liu, Guiwei Zhang, Haoxuan Xu, Yujian Zhao, Guanglin Niu, Bo Li,
- Abstract要約: モダリティ変換表現学習(MTRL)による新しいVI-ReIDフレームワークを提案する。
提案するフレームワークは,VI-ReIDタスクの性能を向上しながら,バックボーンに同じ推論速度を実現するため,追加のパラメータを必要としない。
- 参考スコア(独自算出の注目度): 15.609063540606186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visible-infrared person re-identification (VI-ReID) technique could associate the pedestrian images across visible and infrared modalities in the practical scenarios of background illumination changes. However, a substantial gap inherently exists between these two modalities. Besides, existing methods primarily rely on intermediate representations to align cross-modal features of the same person. The intermediate feature representations are usually create by generating intermediate images (kind of data enhancement), or fusing intermediate features (more parameters, lack of interpretability), and they do not make good use of the intermediate features. Thus, we propose a novel VI-ReID framework via Modality-Transition Representation Learning (MTRL) with a middle generated image as a transmitter from visible to infrared modals, which are fully aligned with the original visible images and similar to the infrared modality. After that, using a modality-transition contrastive loss and a modality-query regularization loss for training, which could align the cross-modal features more effectively. Notably, our proposed framework does not need any additional parameters, which achieves the same inference speed to the backbone while improving its performance on VI-ReID task. Extensive experimental results illustrate that our model significantly and consistently outperforms existing SOTAs on three typical VI-ReID datasets.
- Abstract(参考訳): Visible-infrared person re-identification (VI-ReID) 技術は、背景照明変更の実践シナリオにおいて、視覚的および赤外線モダリティを越えて歩行者像を関連付けることができる。
しかし、この2つのモダリティの間には本質的に実質的なギャップがある。
さらに、既存のメソッドは、主に、同一人物のクロスモーダルな特徴を整列する中間表現に依存している。
中間特徴表現は通常、中間画像(データ拡張の種類)を生成するか、中間特徴(より多くのパラメータ、解釈可能性の欠如)を融合することによって作成され、中間特徴をうまく利用しない。
そこで本研究では,可視から赤外線への透過体として中間生成画像を用いたモダリティ・トランジション表現学習(MTRL)による新しいVI-ReIDフレームワークを提案する。
その後、モダリティ・トランジション・コントラッシブ・ロス(Modality-transition contrastive loss)とモダリティ・クエリ・正規化・ロス(Modality-query regularization loss)を用いてトレーニングを行った。
特に,提案するフレームワークでは,VI-ReIDタスクの性能を向上しながら,バックボーンに同じ推論速度を実現するため,パラメータの追加は不要である。
大規模な実験結果から、我々のモデルは3つの典型的なVI-ReIDデータセット上で既存のSOTAを著しく上回り、一貫した性能を発揮した。
関連論文リスト
- Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
クロスモダリティの人物再識別(ReID)システムはRGB画像に基づいている。
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Unsupervised Misaligned Infrared and Visible Image Fusion via
Cross-Modality Image Generation and Registration [59.02821429555375]
我々は、教師なし不整合赤外線と可視画像融合のための頑健な相互モダリティ生成登録パラダイムを提案する。
登録された赤外線画像と可視画像とを融合させるため,IFM (Feature Interaction Fusion Module) を提案する。
論文 参考訳(メタデータ) (2022-05-24T07:51:57Z) - Towards Homogeneous Modality Learning and Multi-Granularity Information
Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。
従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。
そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文 参考訳(メタデータ) (2022-04-11T03:03:19Z) - CMTR: Cross-modality Transformer for Visible-infrared Person
Re-identification [38.96033760300123]
可視赤外人物再識別のための相互モダリティトランスフォーマー法(CMTR)
我々は,モダリティの情報をエンコードするために,トークン埋め込みと融合した新しいモダリティ埋め込みを設計する。
提案するCMTRモデルの性能は,既存のCNN方式をはるかに上回っている。
論文 参考訳(メタデータ) (2021-10-18T03:12:59Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。