論文の概要: CMTR: Cross-modality Transformer for Visible-infrared Person
Re-identification
- arxiv url: http://arxiv.org/abs/2110.08994v1
- Date: Mon, 18 Oct 2021 03:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 17:22:58.832348
- Title: CMTR: Cross-modality Transformer for Visible-infrared Person
Re-identification
- Title(参考訳): CMTR:可視赤外線人物識別用クロスモーダルトランス
- Authors: Tengfei Liang, Yi Jin, Yajun Gao, Wu Liu, Songhe Feng, Tao Wang,
Yidong Li
- Abstract要約: 可視赤外人物再識別のための相互モダリティトランスフォーマー法(CMTR)
我々は,モダリティの情報をエンコードするために,トークン埋め込みと融合した新しいモダリティ埋め込みを設計する。
提案するCMTRモデルの性能は,既存のCNN方式をはるかに上回っている。
- 参考スコア(独自算出の注目度): 38.96033760300123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-infrared cross-modality person re-identification is a challenging
ReID task, which aims to retrieve and match the same identity's images between
the heterogeneous visible and infrared modalities. Thus, the core of this task
is to bridge the huge gap between these two modalities. The existing
convolutional neural network-based methods mainly face the problem of
insufficient perception of modalities' information, and can not learn good
discriminative modality-invariant embeddings for identities, which limits their
performance. To solve these problems, we propose a cross-modality
transformer-based method (CMTR) for the visible-infrared person
re-identification task, which can explicitly mine the information of each
modality and generate better discriminative features based on it. Specifically,
to capture modalities' characteristics, we design the novel modality
embeddings, which are fused with token embeddings to encode modalities'
information. Furthermore, to enhance representation of modality embeddings and
adjust matching embeddings' distribution, we propose a modality-aware
enhancement loss based on the learned modalities' information, reducing
intra-class distance and enlarging inter-class distance. To our knowledge, this
is the first work of applying transformer network to the cross-modality
re-identification task. We implement extensive experiments on the public
SYSU-MM01 and RegDB datasets, and our proposed CMTR model's performance
significantly surpasses existing outstanding CNN-based methods.
- Abstract(参考訳): 可視赤外クロスモダリティ 人物再識別は、異種可視性と赤外線のモダリティの間で同一のアイデンティティの画像を検索し、一致させることを目的としている、挑戦的なreidタスクである。
したがって、このタスクのコアは、これらの2つのモードの間の大きなギャップを埋めることである。
既存の畳み込みニューラルネットワークベースの手法は、主にモダリティの情報認識不足の問題に直面しており、その性能を制限する識別的モダリティ不変埋め込みを学習できない。
そこで本稿では,これらの問題を解決するために,可視赤外人物再同定タスクのためのクロスモダリティトランスフォーマティブ(cmtr)を提案する。
具体的には、モダリティの特性を捉えるために、モダリティの情報をエンコードするためにトークン埋め込みと融合した新しいモダリティ埋め込みを設計する。
さらに,モダリティ埋め込みの表現を強化し,組込み分布のマッチングを調整するために,学習したモダリティ情報に基づくモダリティ認識強調損失を提案し,クラス間距離を削減し,クラス間距離を拡大する。
我々の知る限り、これはトランスフォーマーネットワークをモダリティ再識別タスクに適用する最初の作業である。
我々は、公開SYSU-MM01とRegDBデータセットに関する広範な実験を行い、提案したCMTRモデルの性能は既存のCNNベースの手法を大幅に上回っている。
関連論文リスト
- Dynamic Identity-Guided Attention Network for Visible-Infrared Person Re-identification [17.285526655788274]
Visible-infrared person re-identification (VI-ReID) は、可視光と赤外線の同一性を持つ人物をマッチングすることを目的としている。
既存の方法は一般的に、画像や特徴レベルでのクロスモーダルな違いを橋渡ししようとする。
我々は、動的ID誘導型注意ネットワーク(DIAN)を導入し、アイデンティティ誘導型およびモダリティ一貫性のある埋め込みをマイニングする。
論文 参考訳(メタデータ) (2024-05-21T12:04:56Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Learning Cross-modality Information Bottleneck Representation for
Heterogeneous Person Re-Identification [61.49219876388174]
Visible-Infrared person re-identification (VI-ReID)は、インテリジェントビデオ監視において重要かつ困難な課題である。
既存の手法は主に共有特徴空間の学習に重点を置いており、可視光と赤外光の相違を減らす。
本稿では,新しい相互情報・モダリティコンセンサスネットワーク,すなわちCMInfoNetを提案し,モダリティ不変な同一性の特徴を抽出する。
論文 参考訳(メタデータ) (2023-08-29T06:55:42Z) - Learning Progressive Modality-shared Transformers for Effective
Visible-Infrared Person Re-identification [27.75907274034702]
我々は,能率VI-ReIDのためのPMT(Progressive Modality-Shared Transformer)という新しいディープラーニングフレームワークを提案する。
モダリティギャップの負の効果を低減するために、まず、グレースケールの画像を補助的なモダリティとして捉え、進歩的な学習戦略を提案する。
クラス内差が大きく,クラス間差が少ない問題に対処するために,識別中心損失を提案する。
論文 参考訳(メタデータ) (2022-12-01T02:20:16Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。