論文の概要: Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification
- arxiv url: http://arxiv.org/abs/2409.05642v1
- Date: Mon, 9 Sep 2024 14:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:29:54.992183
- Title: Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification
- Title(参考訳): 可視赤外人物再識別のためのプロトタイプ駆動多機能生成
- Authors: Jiarui Li, Zhen Qiu, Yilin Yang, Yuqi Li, Zeyu Dong, Chuanguang Yang,
- Abstract要約: 可視的(視覚)画像と赤外線(赤外線)画像の違いから、可視的(赤外線)人物の再識別における主な課題が生じる。
既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列させ、不正確性を導入する。
クロスモーダルな相違を緩和することを目的としたPDM(Prototype-Driven Multi-Feature Generation framework)を提案する。
- 参考スコア(独自算出の注目度): 11.664820595258988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary challenges in visible-infrared person re-identification arise from the differences between visible (vis) and infrared (ir) images, including inter-modal and intra-modal variations. These challenges are further complicated by varying viewpoints and irregular movements. Existing methods often rely on horizontal partitioning to align part-level features, which can introduce inaccuracies and have limited effectiveness in reducing modality discrepancies. In this paper, we propose a novel Prototype-Driven Multi-feature generation framework (PDM) aimed at mitigating cross-modal discrepancies by constructing diversified features and mining latent semantically similar features for modal alignment. PDM comprises two key components: Multi-Feature Generation Module (MFGM) and Prototype Learning Module (PLM). The MFGM generates diversity features closely distributed from modality-shared features to represent pedestrians. Additionally, the PLM utilizes learnable prototypes to excavate latent semantic similarities among local features between visible and infrared modalities, thereby facilitating cross-modal instance-level alignment. We introduce the cosine heterogeneity loss to enhance prototype diversity for extracting rich local features. Extensive experiments conducted on the SYSU-MM01 and LLCM datasets demonstrate that our approach achieves state-of-the-art performance. Our codes are available at https://github.com/mmunhappy/ICASSP2025-PDM.
- Abstract(参考訳): 可視的・赤外線的人物再識別における主な課題は、可視的(視覚)像と赤外線的(赤外線)像の違いである。
これらの課題は、様々な視点と不規則な動きによってさらに複雑である。
既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列し、不正確さを導入し、モダリティの相違を減少させる効果が制限される。
本稿では,多彩な特徴を構築し,モジュールアライメントのための潜在的に類似した特徴をマイニングすることによって,モジュール間不一致を緩和することを目的とした,新しいプロトタイプ駆動多機能生成フレームワークを提案する。
PDMはMFGM(Multi-Feature Generation Module)とPLM(Prototype Learning Module)の2つの主要なコンポーネントから構成される。
MFGMは、歩行者を表現するために、モダリティ共有された特徴から密に分散した多様性特徴を生成する。
さらに、PLMは学習可能なプロトタイプを使用して、可視光と赤外線の局所的な特徴間の潜在意味的類似性を発掘し、それによってクロスモーダルなインスタンスレベルのアライメントを容易にする。
そこで本研究では,コサインの不均一性を損なうことにより,リッチな局所特徴抽出のためのプロトタイプの多様性を向上する。
SYSU-MM01 と LLCM のデータセットを用いた大規模な実験により,本手法が最先端の性能を実現することを示す。
私たちのコードはhttps://github.com/mmunhappy/ICASSP2025-PDMで公開されています。
関連論文リスト
- Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Bidirectional Multi-Step Domain Generalization for Visible-Infrared Person Re-Identification [12.14946364107671]
可視赤外人物再識別(V-I ReID)における重要な課題は、モダリティ間の重要な相違を効果的に解決できるバックボーンモデルを訓練することである。
本稿では,多目的多段階領域一般化(Bidirectional Multi-step Domain Generalization)について紹介する。
挑戦的なV-I ReIDデータセットを用いて行った実験は、我々のBMDGアプローチがV-Iの人物ReIDから中間ドメインを生成する最先端のパーツベースモデルや手法より優れていることを示している。
論文 参考訳(メタデータ) (2024-03-16T03:03:27Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z) - Hierarchical Forgery Classifier On Multi-modality Face Forgery Clues [61.37306431455152]
我々は,HFC-MFFD (hierarchical Forgery for Multi-modality Face Forgery Detection) を提案する。
HFC-MFFDは、マルチモーダルシナリオにおけるフォージェリー認証を強化するために、堅牢なパッチベースのハイブリッド表現を学習する。
クラス不均衡問題を緩和し、さらに検出性能を高めるために、特定の階層的な顔偽造を提案する。
論文 参考訳(メタデータ) (2022-12-30T10:54:29Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - CycleTrans: Learning Neutral yet Discriminative Features for
Visible-Infrared Person Re-Identification [79.84912525821255]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線モダリティ間で同一人物をマッチングするタスクである。
既存のVI-ReID手法は主に、特徴識別性を犠牲にして、モダリティを越えて一般的な特徴を学習することに焦点を当てている。
ニュートラルかつ差別的な特徴学習のための新しいサイクル構築型ネットワークであるCycleTransを提案する。
論文 参考訳(メタデータ) (2022-08-21T08:41:40Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Exploring Modality-shared Appearance Features and Modality-invariant
Relation Features for Cross-modality Person Re-Identification [72.95858515157603]
クロスモダリティの人物再識別作業は、識別モダリティ共有機能に依存する。
初期の成功にもかかわらず、このようなモダリティ共有の外観機能は十分なモダリティ不変情報をキャプチャできない。
クロスモダリティの変動をさらに低減するために、新しいクロスモダリティ四重極損失が提案される。
論文 参考訳(メタデータ) (2021-04-23T11:14:07Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。