論文の概要: Learning by Aligning: Visible-Infrared Person Re-identification using
Cross-Modal Correspondences
- arxiv url: http://arxiv.org/abs/2108.07422v1
- Date: Tue, 17 Aug 2021 03:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:21:55.102604
- Title: Learning by Aligning: Visible-Infrared Person Re-identification using
Cross-Modal Correspondences
- Title(参考訳): 適応による学習:相互対応を用いた可視赤外人物の再識別
- Authors: Hyunjong Park, Sanghoon Lee, Junghyup Lee, Bumsub Ham
- Abstract要約: VI-reIDの主な課題は、個人画像間のクラス内変動と、可視画像と赤外線画像の相互差である。
我々はこれらの問題に統一的な方法で対処する新しい特徴学習フレームワークを導入する。
- 参考スコア(独自算出の注目度): 42.16002082436691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of visible-infrared person re-identification
(VI-reID), that is, retrieving a set of person images, captured by visible or
infrared cameras, in a cross-modal setting. Two main challenges in VI-reID are
intra-class variations across person images, and cross-modal discrepancies
between visible and infrared images. Assuming that the person images are
roughly aligned, previous approaches attempt to learn coarse image- or rigid
part-level person representations that are discriminative and generalizable
across different modalities. However, the person images, typically cropped by
off-the-shelf object detectors, are not necessarily well-aligned, which
distract discriminative person representation learning. In this paper, we
introduce a novel feature learning framework that addresses these problems in a
unified way. To this end, we propose to exploit dense correspondences between
cross-modal person images. This allows to address the cross-modal discrepancies
in a pixel-level, suppressing modality-related features from person
representations more effectively. This also encourages pixel-wise associations
between cross-modal local features, further facilitating discriminative feature
learning for VI-reID. Extensive experiments and analyses on standard VI-reID
benchmarks demonstrate the effectiveness of our approach, which significantly
outperforms the state of the art.
- Abstract(参考訳): 可視・赤外線人物再識別(VI-reID)の問題,すなわち,可視・赤外線カメラで捉えた人物画像の集合を,クロスモーダルな設定で検索する問題に対処する。
VI-reIDの主な課題は、個人画像間のクラス内変異と、可視画像と赤外線画像の相互差である。
人物像が大まかに一致していると仮定すると、従来のアプローチは、様々なモダリティで識別可能で一般化可能な、粗い画像または堅い部分レベルの人物表現を学習しようとする。
しかし、通常、市販の物体検出器でトリミングされる人物画像は必ずしも整列しているとは限らないため、差別的な人物表現学習を邪魔する。
本稿では,これらの問題に統一的に対処する新しい特徴学習フレームワークを提案する。
そこで本研究では,交叉型人物画像間の密接な対応を活用すべく提案する。
これにより、ピクセルレベルでのクロスモーダルな不一致に対処でき、人的表現からのモダリティに関連した特徴をより効果的に抑制できる。
これはまた、モーダルな局所特徴間のピクセルワイドな関連を奨励し、さらにVI-reIDの識別的特徴学習を促進する。
標準VI-reIDベンチマークの大規模な実験と解析により,本手法の有効性が実証された。
関連論文リスト
- Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Dynamic Identity-Guided Attention Network for Visible-Infrared Person Re-identification [17.285526655788274]
Visible-infrared person re-identification (VI-ReID) は、可視光と赤外線の同一性を持つ人物をマッチングすることを目的としている。
既存の方法は一般的に、画像や特徴レベルでのクロスモーダルな違いを橋渡ししようとする。
我々は、動的ID誘導型注意ネットワーク(DIAN)を導入し、アイデンティティ誘導型およびモダリティ一貫性のある埋め込みをマイニングする。
論文 参考訳(メタデータ) (2024-05-21T12:04:56Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Learning Commonality, Divergence and Variety for Unsupervised Visible-Infrared Person Re-identification [32.537029197752915]
教師なし可視人物再識別(USVI-ReID)は、赤外線画像中の特定人物とアノテーションなしで可視画像とをマッチングすることを目的としており、その逆も目的である。
既存のほとんどのメソッドは、クラスタベースのコントラスト学習を使用してUSVI-ReIDに対処する。
我々は,USVI-ReIDのためのハードおよびダイナミックプロトタイプを用いたプログレッシブコントラスト学習を提案する。
論文 参考訳(メタデータ) (2024-02-29T10:37:49Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - VI-Diff: Unpaired Visible-Infrared Translation Diffusion Model for
Single Modality Labeled Visible-Infrared Person Re-identification [14.749167141971952]
モダリティ間のデータアノテーションは、可視的・赤外線の人物の再識別に費用がかかり、エラーを起こしやすい。
視覚・赤外線画像変換の課題を効果的に解決する拡散モデルであるVI-Diffを提案する。
我々のアプローチは、単一のモダリティラベル付きデータを用いたVI-ReIDタスクの有望な解決策であり、将来の研究の出発点となる。
論文 参考訳(メタデータ) (2023-10-06T09:42:12Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Towards Homogeneous Modality Learning and Multi-Granularity Information
Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。
従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。
そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文 参考訳(メタデータ) (2022-04-11T03:03:19Z) - Heterogeneous Visible-Thermal and Visible-Infrared Face Recognition
using Unit-Class Loss and Cross-Modality Discriminator [0.43748379918040853]
本稿では,クロスモーダル顔認識のためのエンドツーエンドフレームワークを提案する。
モダリティ情報を捨てつつアイデンティティ情報を保存するために,新しい単位クラス損失を提案する。
提案したネットワークは、モダリティ非依存のベクトル表現を抽出したり、テスト画像のマッチングペア分類に利用できる。
論文 参考訳(メタデータ) (2021-11-29T06:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。