Fugu-MT 論文翻訳(概要): Visible-Infrared Person Re-Identification via Patch-Mixed Cross-Modality Learning

論文の概要: Visible-Infrared Person Re-Identification via Patch-Mixed Cross-Modality Learning

arxiv url: http://arxiv.org/abs/2302.08212v2
Date: Tue, 30 Apr 2024 09:51:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-01 20:17:07.652450
Title: Visible-Infrared Person Re-Identification via Patch-Mixed Cross-Modality Learning
Title（参考訳）: Patch-Mixed Cross-Modality Learning による可視赤外人物再同定
Authors: Zhihao Qian, Yutian Lin, Bo Du,
Abstract要約: VI-ReIDのためのパッチ・ミキシング・クロスモダリティ・フレームワーク(PMCM)を提案する。 2つのモダリティから同一人物の2つのイメージをパッチに分割し、モデル学習のための新しい画像に縫い付ける。表現学習を正規化するために部分配向損失を導入し、モダリティの整合性を確保するためにパッチ混在のモダリティ学習損失を提案する。
参考スコア（独自算出の注目度）: 29.077870658498963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visible-infrared person re-identification (VI-ReID) aims to retrieve images of the same pedestrian from different modalities, where the challenges lie in the significant modality discrepancy. To alleviate the modality gap, recent methods generate intermediate images by GANs, grayscaling, or mixup strategies. However, these methods could introduce extra data distribution, and the semantic correspondence between the two modalities is not well learned. In this paper, we propose a Patch-Mixed Cross-Modality framework (PMCM), where two images of the same person from two modalities are split into patches and stitched into a new one for model learning. A part-alignment loss is introduced to regularize representation learning, and a patch-mixed modality learning loss is proposed to align between the modalities. In this way, the model learns to recognize a person through patches of different styles, thereby the modality semantic correspondence can be inferred. In addition, with the flexible image generation strategy, the patch-mixed images freely adjust the ratio of different modality patches, which could further alleviate the modality imbalance problem. On two VI-ReID datasets, we report new state-of-the-art performance with the proposed method.
Abstract（参考訳）: Visible-infrared person re-identification (VI-ReID) は、異なるモードから同じ歩行者の画像を取得することを目的としている。モダリティギャップを軽減するため、近年の手法では、GAN、グレースケーリング、ミックスアップ戦略によって中間画像を生成する。しかし、これらの手法は余分なデータ分布を導入できる可能性があり、2つのモダリティ間の意味的対応は十分に学習されていない。本稿では、2つのモダリティから同一人物の2つのイメージをパッチに分割し、モデル学習のための新しい画像に縫合するパッチ・ミキシング・クロスモーダル・フレームワーク(PMCM)を提案する。表現学習を正規化するために部分配向損失を導入し、モダリティの整合性を確保するためにパッチ混在のモダリティ学習損失を提案する。このようにして、モデルは異なるスタイルのパッチを通して人物を認識することを学習し、モダリティ意味対応を推測することができる。さらに、フレキシブルな画像生成戦略により、パッチ混合画像は異なるモダリティパッチの比率を自由に調整し、モダリティの不均衡問題を緩和することができる。 2つのVI-ReIDデータセットに対して,提案手法を用いた新しい最先端性能を報告する。

関連論文リスト

Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文参考訳（メタデータ） (2025-07-14T14:28:15Z)
Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。 MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。 2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文参考訳（メタデータ） (2024-07-26T16:30:18Z)
Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文参考訳（メタデータ） (2024-07-16T13:00:33Z)
Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文参考訳（メタデータ） (2023-09-12T14:22:22Z)
Bridging the Gap: Multi-Level Cross-Modality Joint Alignment for Visible-Infrared Person Re-Identification [41.600294816284865]
Visible-Infrared Person Re-IDentification (VI-ReID)は、歩行者の画像を可視カメラと赤外線カメラに合わせることを目的としている。モダリティギャップを解決するため、既存の主流手法では、画像検索タスクを画像分類タスクに変換する学習パラダイムを採用している。モーダリティと目的レベルのギャップを埋める,単純かつ効果的な多層クロスモーダリティ共同アライメント(MCJA)を提案する。
論文参考訳（メタデータ） (2023-07-17T08:24:05Z)
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。 CMCは自然文をテキストビューからマルチモーダルビューに変換する。クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文参考訳（メタデータ） (2022-06-17T17:56:47Z)
Towards Homogeneous Modality Learning and Multi-Granularity Information Exploration for Visible-Infrared Person Re-Identification [16.22986967958162]
Visible-infrared person re-identification (VI-ReID) は、可視・赤外線カメラビューを介して人物画像の集合を検索することを目的とした、困難かつ必須の課題である。従来の手法では, GAN (Generative Adversarial Network) を用いて, モーダリティ・コンシデント・データを生成する手法が提案されている。そこで本研究では、視線外デュアルモード学習をグレーグレー単一モード学習問題として再構成する、統一されたダークラインスペクトルであるAligned Grayscale Modality (AGM)を用いて、モード間マッチング問題に対処する。
論文参考訳（メタデータ） (2022-04-11T03:03:19Z)
Modality-Adaptive Mixup and Invariant Decomposition for RGB-Infrared Person Re-Identification [84.32086702849338]
RGB-赤外線人物再同定のための新しいモダリティ適応混合・不変分解(MID)手法を提案する。 MIDは、RGBと赤外線画像の混合画像を生成するためのモダリティ適応混合方式を設計する。 2つの挑戦的なベンチマーク実験は、最先端の手法よりもMIDの優れた性能を示す。
論文参考訳（メタデータ） (2022-03-03T14:26:49Z)
Exploring Modality-shared Appearance Features and Modality-invariant Relation Features for Cross-modality Person Re-Identification [72.95858515157603]
クロスモダリティの人物再識別作業は、識別モダリティ共有機能に依存する。初期の成功にもかかわらず、このようなモダリティ共有の外観機能は十分なモダリティ不変情報をキャプチャできない。クロスモダリティの変動をさらに低減するために、新しいクロスモダリティ四重極損失が提案される。
論文参考訳（メタデータ） (2021-04-23T11:14:07Z)
Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文参考訳（メタデータ） (2020-08-25T03:30:53Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。