論文の概要: Bridging the Gap: Multi-Level Cross-Modality Joint Alignment for
Visible-Infrared Person Re-Identification
- arxiv url: http://arxiv.org/abs/2307.08316v1
- Date: Mon, 17 Jul 2023 08:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:13:55.658322
- Title: Bridging the Gap: Multi-Level Cross-Modality Joint Alignment for
Visible-Infrared Person Re-Identification
- Title(参考訳): 可視赤外人物再同定のための多層クロスモダリティ関節アライメント
- Authors: Tengfei Liang, Yi Jin, Wu Liu, Tao Wang, Songhe Feng, Yidong Li
- Abstract要約: Visible-Infrared Person Re-IDentification (VI-ReID)は、歩行者の画像を可視カメラと赤外線カメラに合わせることを目的としている。
モダリティギャップを解決するため、既存の主流手法では、画像検索タスクを画像分類タスクに変換する学習パラダイムを採用している。
モーダリティと目的レベルのギャップを埋める,単純かつ効果的な多層クロスモーダリティ共同アライメント(MCJA)を提案する。
- 参考スコア(独自算出の注目度): 41.600294816284865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-Infrared person Re-IDentification (VI-ReID) is a challenging
cross-modality image retrieval task that aims to match pedestrians' images
across visible and infrared cameras. To solve the modality gap, existing
mainstream methods adopt a learning paradigm converting the image retrieval
task into an image classification task with cross-entropy loss and auxiliary
metric learning losses. These losses follow the strategy of adjusting the
distribution of extracted embeddings to reduce the intra-class distance and
increase the inter-class distance. However, such objectives do not precisely
correspond to the final test setting of the retrieval task, resulting in a new
gap at the optimization level. By rethinking these keys of VI-ReID, we propose
a simple and effective method, the Multi-level Cross-modality Joint Alignment
(MCJA), bridging both modality and objective-level gap. For the former, we
design the Modality Alignment Augmentation, which consists of three novel
strategies, the weighted grayscale, cross-channel cutmix, and spectrum jitter
augmentation, effectively reducing modality discrepancy in the image space. For
the latter, we introduce a new Cross-Modality Retrieval loss. It is the first
work to constrain from the perspective of the ranking list, aligning with the
goal of the testing stage. Moreover, based on the global feature only, our
method exhibits good performance and can serve as a strong baseline method for
the VI-ReID community.
- Abstract(参考訳): 可視赤外人物再同定(vi-reid)は、歩行者の画像を可視カメラと赤外線カメラでマッチングすることを目的とした、難解なクロスモダリティ画像検索タスクである。
モダリティギャップを解決するため、既存の主流手法では、画像検索タスクをクロスエントロピー損失と補助的メトリック学習損失を伴う画像分類タスクに変換する学習パラダイムを採用している。
これらの損失は, クラス内距離を減少させ, クラス間距離を増大させるため, 抽出した埋め込みの分布を調整する戦略に従う。
しかし、このような目的は検索タスクの最終テスト設定と正確には一致しないため、最適化レベルでの新たなギャップが生じる。
VI-ReIDのこれらのキーを再考することにより,モダリティと目的レベルのギャップを埋める,単純かつ効果的な手法であるMulti-level Cross-modality Joint Alignment (MCJA)を提案する。
前者に対しては、重み付きグレースケール、クロスチャネルカットミックス、スペクトルジッタ拡張の3つの新しい戦略からなるModality Alignment Augmentationを設計し、画像空間におけるモダリティの差を効果的に低減する。
後者では、新たなクロスモーダル検索損失を導入する。
テストステージの目標に合わせて、ランキングリストの観点から制約する最初の作業である。
さらに,グローバルな特徴のみに基づいて,提案手法は優れた性能を示し,VI-ReIDコミュニティの強力なベースライン手法として機能する。
関連論文リスト
- Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Multi-task Learning for Optical Coherence Tomography Angiography (OCTA)
Vessel Segmentation [1.7539061565898157]
本稿では,OCTA-MTLと呼ばれる,OCTAセグメンテーションのためのマルチタスク学習手法を提案する。
適応的損失結合戦略は、各タスクの平均損失値の逆数に応じて損失重量を動的に調整する。
ROSE-2データセットのセグメンテーション性能を2つのベースライン法と比較して評価した。
論文 参考訳(メタデータ) (2023-11-03T23:10:56Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - Exploring Invariant Representation for Visible-Infrared Person
Re-Identification [77.06940947765406]
異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。
本稿では、ロバスト機能マイニングネットワーク(RFM)と呼ばれるエンドツーエンドのハイブリッド学習フレームワークにおいて、画像レベルと特徴レベルの両方の問題に対処する。
RegDBとSYSU-MM01という2つの標準的なクロススペクトル人物識別データセットの実験結果により,最先端の性能が示された。
論文 参考訳(メタデータ) (2023-02-02T05:24:50Z) - Towards Homogeneous Modality Learning and Multi-Granularity Information
Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。
従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。
そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文 参考訳(メタデータ) (2022-04-11T03:03:19Z) - Modality-Adaptive Mixup and Invariant Decomposition for RGB-Infrared
Person Re-Identification [84.32086702849338]
RGB-赤外線人物再同定のための新しいモダリティ適応混合・不変分解(MID)手法を提案する。
MIDは、RGBと赤外線画像の混合画像を生成するためのモダリティ適応混合方式を設計する。
2つの挑戦的なベンチマーク実験は、最先端の手法よりもMIDの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-03T14:26:49Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Parameter Sharing Exploration and Hetero-Center based Triplet Loss for
Visible-Thermal Person Re-Identification [17.402673438396345]
本稿では,VT Re-ID(VT Re-ID)タスクについて述べる。
提案手法は,最先端の手法を大きなマージンで明らかに上回っている。
論文 参考訳(メタデータ) (2020-08-14T07:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。