Fugu-MT 論文翻訳(概要): Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences

論文の概要: Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences

arxiv url: http://arxiv.org/abs/2108.07422v1
Date: Tue, 17 Aug 2021 03:38:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-18 13:21:55.102604
Title: Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences
Title（参考訳）: 適応による学習:相互対応を用いた可視赤外人物の再識別
Authors: Hyunjong Park, Sanghoon Lee, Junghyup Lee, Bumsub Ham
Abstract要約: VI-reIDの主な課題は、個人画像間のクラス内変動と、可視画像と赤外線画像の相互差である。我々はこれらの問題に統一的な方法で対処する新しい特徴学習フレームワークを導入する。
参考スコア（独自算出の注目度）: 42.16002082436691
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the problem of visible-infrared person re-identification (VI-reID), that is, retrieving a set of person images, captured by visible or infrared cameras, in a cross-modal setting. Two main challenges in VI-reID are intra-class variations across person images, and cross-modal discrepancies between visible and infrared images. Assuming that the person images are roughly aligned, previous approaches attempt to learn coarse image- or rigid part-level person representations that are discriminative and generalizable across different modalities. However, the person images, typically cropped by off-the-shelf object detectors, are not necessarily well-aligned, which distract discriminative person representation learning. In this paper, we introduce a novel feature learning framework that addresses these problems in a unified way. To this end, we propose to exploit dense correspondences between cross-modal person images. This allows to address the cross-modal discrepancies in a pixel-level, suppressing modality-related features from person representations more effectively. This also encourages pixel-wise associations between cross-modal local features, further facilitating discriminative feature learning for VI-reID. Extensive experiments and analyses on standard VI-reID benchmarks demonstrate the effectiveness of our approach, which significantly outperforms the state of the art.
Abstract（参考訳）: 可視・赤外線人物再識別(VI-reID)の問題,すなわち,可視・赤外線カメラで捉えた人物画像の集合を,クロスモーダルな設定で検索する問題に対処する。 VI-reIDの主な課題は、個人画像間のクラス内変異と、可視画像と赤外線画像の相互差である。人物像が大まかに一致していると仮定すると、従来のアプローチは、様々なモダリティで識別可能で一般化可能な、粗い画像または堅い部分レベルの人物表現を学習しようとする。しかし、通常、市販の物体検出器でトリミングされる人物画像は必ずしも整列しているとは限らないため、差別的な人物表現学習を邪魔する。本稿では,これらの問題に統一的に対処する新しい特徴学習フレームワークを提案する。そこで本研究では,交叉型人物画像間の密接な対応を活用すべく提案する。これにより、ピクセルレベルでのクロスモーダルな不一致に対処でき、人的表現からのモダリティに関連した特徴をより効果的に抑制できる。これはまた、モーダルな局所特徴間のピクセルワイドな関連を奨励し、さらにVI-reIDの識別的特徴学習を促進する。標準VI-reIDベンチマークの大規模な実験と解析により,本手法の有効性が実証された。

関連論文リスト

Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。本稿では,AVGという自己回帰ボウケン生成手法を提案する。 AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-24T13:39:51Z)
Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文参考訳（メタデータ） (2024-07-16T13:00:33Z)
Dynamic Identity-Guided Attention Network for Visible-Infrared Person Re-identification [17.285526655788274]
Visible-infrared person re-identification (VI-ReID) は、可視光と赤外線の同一性を持つ人物をマッチングすることを目的としている。既存の方法は一般的に、画像や特徴レベルでのクロスモーダルな違いを橋渡ししようとする。我々は、動的ID誘導型注意ネットワーク(DIAN)を導入し、アイデンティティ誘導型およびモダリティ一貫性のある埋め込みをマイニングする。
論文参考訳（メタデータ） (2024-05-21T12:04:56Z)
CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-02-29T15:05:11Z)
Learning Commonality, Divergence and Variety for Unsupervised Visible-Infrared Person Re-identification [32.537029197752915]
教師なし可視人物再識別(USVI-ReID)は、赤外線画像中の特定人物とアノテーションなしで可視画像とをマッチングすることを目的としており、その逆も目的である。既存のほとんどのメソッドは、クラスタベースのコントラスト学習を使用してUSVI-ReIDに対処する。我々は,USVI-ReIDのためのハードおよびダイナミックプロトタイプを用いたプログレッシブコントラスト学習を提案する。
論文参考訳（メタデータ） (2024-02-29T10:37:49Z)
Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文参考訳（メタデータ） (2024-01-18T15:56:23Z)
VI-Diff: Unpaired Visible-Infrared Translation Diffusion Model for Single Modality Labeled Visible-Infrared Person Re-identification [14.749167141971952]
モダリティ間のデータアノテーションは、可視的・赤外線の人物の再識別に費用がかかり、エラーを起こしやすい。視覚・赤外線画像変換の課題を効果的に解決する拡散モデルであるVI-Diffを提案する。我々のアプローチは、単一のモダリティラベル付きデータを用いたVI-ReIDタスクの有望な解決策であり、将来の研究の出発点となる。
論文参考訳（メタデータ） (2023-10-06T09:42:12Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Towards Homogeneous Modality Learning and Multi-Granularity Information Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文参考訳（メタデータ） (2022-04-11T03:03:19Z)
Heterogeneous Visible-Thermal and Visible-Infrared Face Recognition using Unit-Class Loss and Cross-Modality Discriminator [0.43748379918040853]
本稿では,クロスモーダル顔認識のためのエンドツーエンドフレームワークを提案する。モダリティ情報を捨てつつアイデンティティ情報を保存するために,新しい単位クラス損失を提案する。提案したネットワークは、モダリティ非依存のベクトル表現を抽出したり、テスト画像のマッチングペア分類に利用できる。
論文参考訳（メタデータ） (2021-11-29T06:14:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。