論文の概要: Multi-scale Semantic Correlation Mining for Visible-Infrared Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2311.14395v1
- Date: Fri, 24 Nov 2023 10:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:24:51.169322
- Title: Multi-scale Semantic Correlation Mining for Visible-Infrared Person
Re-Identification
- Title(参考訳): 可視赤外人物再同定のためのマルチスケールセマンティック相関マイニング
- Authors: Ke Cheng, Xuecheng Hua, Hu Lu, Juanjuan Tu, Yuanquan Wang, Shitong
Wang
- Abstract要約: MSCMNetは、複数のスケールでセマンティック機能を包括的に活用するために提案されている。
特徴抽出において、モダリティ情報損失を可能な限り小さくする。
SYSU-MM01、RegDB、 LLCMデータセットの大規模な実験により、提案したMSCMNetが最も精度が高いことを示す。
- 参考スコア(独自算出の注目度): 19.49945790485511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The main challenge in the Visible-Infrared Person Re-Identification (VI-ReID)
task lies in how to extract discriminative features from different modalities
for matching purposes. While the existing well works primarily focus on
minimizing the modal discrepancies, the modality information can not thoroughly
be leveraged. To solve this problem, a Multi-scale Semantic Correlation Mining
network (MSCMNet) is proposed to comprehensively exploit semantic features at
multiple scales and simultaneously reduce modality information loss as small as
possible in feature extraction. The proposed network contains three novel
components. Firstly, after taking into account the effective utilization of
modality information, the Multi-scale Information Correlation Mining Block
(MIMB) is designed to explore semantic correlations across multiple scales.
Secondly, in order to enrich the semantic information that MIMB can utilize, a
quadruple-stream feature extractor (QFE) with non-shared parameters is
specifically designed to extract information from different dimensions of the
dataset. Finally, the Quadruple Center Triplet Loss (QCT) is further proposed
to address the information discrepancy in the comprehensive features. Extensive
experiments on the SYSU-MM01, RegDB, and LLCM datasets demonstrate that the
proposed MSCMNet achieves the greatest accuracy.
- Abstract(参考訳): Visible-Infrared Person Re-Identification (VI-ReID)タスクの主な課題は、マッチング目的のために異なるモダリティから識別的特徴を抽出する方法にある。
既存の井戸は主にモダリティの相違を最小化することに重点を置いているが、モダリティ情報は十分に活用できない。
この問題を解決するために,マルチスケールセマンティック相関マイニングネットワーク(MSCMNet)を提案する。
提案するネットワークは3つの新しいコンポーネントを含んでいる。
まず,モダリティ情報の有効利用を考慮したマルチスケール情報相関マイニングブロック(MIMB)を設計し,複数のスケールにまたがる意味的相関を探索する。
第二に、MIMBが利用できる意味情報を強化するために、非共有パラメータを持つ四重ストリーム特徴抽出器(QFE)は、データセットの異なる次元から情報を取り出すように設計されている。
最後に、4重中心三重項損失(qct)をさらに提案し、包括的特徴における情報格差に対処する。
SYSU-MM01、RegDB、 LLCMデータセットの大規模な実験により、提案したMSCMNetが最も精度が高いことを示す。
関連論文リスト
- WRIM-Net: Wide-Ranging Information Mining Network for Visible-Infrared Person Re-Identification [8.88666439137662]
本稿では,多次元インタラクティブ情報マイニング(MIIM)モジュールと補助情報に基づくコントラスト学習(AICL)アプローチを主とするワイドランキング情報マイニングネットワーク(WRIM-Net)を紹介する。
計算複雑性の低い設計により、別々のMIIMを浅い層に配置することができ、ネットワークは特定のモダリティの多重次元情報をよりよくマイニングすることができる。
我々は、よく知られたSYSU-MM01とRegDBデータセットだけでなく、最新の大規模クロスモダリティLLMデータセットにも広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-20T08:06:16Z) - Multimodal Collaboration Networks for Geospatial Vehicle Detection in Dense, Occluded, and Large-Scale Events [29.86323896541765]
大規模災害では, 災害現場の物体検出能力に頼って, 最適な救助経路の計画を立てる。
既存の手法は、通常RGBのモダリティに基づいており、混み合った環境で同じ色やテクスチャでターゲットを区別するのに苦労している。
密集・隠蔽車検出のためのマルチモーダル協調ネットワーク MuDet を提案する。
論文 参考訳(メタデータ) (2024-05-14T00:51:15Z) - Multimodal Informative ViT: Information Aggregation and Distribution for
Hyperspectral and LiDAR Classification [25.254816993934746]
Multimodal Informative Vit (MIVit) は革新的な情報集約配信機構を備えたシステムである。
MIVitは、各モードの分離されたおよび融合された特徴の実験的分布における冗長性を減少させる。
以上の結果から,MIVitの双方向凝集分配機構は極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-01-06T09:53:33Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - ESDMR-Net: A Lightweight Network With Expand-Squeeze and Dual Multiscale
Residual Connections for Medical Image Segmentation [7.921517156237902]
本稿では,拡張型マルチスケール残差ネットワーク(ESDMR-Net)を提案する。
完全な畳み込みネットワークであり、モバイルデバイスのようなリソースに制約のあるコンピューティングハードウェアに適している。
5つの異なる応用例から7つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-17T02:15:49Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Learning Cross-modality Information Bottleneck Representation for
Heterogeneous Person Re-Identification [61.49219876388174]
Visible-Infrared person re-identification (VI-ReID)は、インテリジェントビデオ監視において重要かつ困難な課題である。
既存の手法は主に共有特徴空間の学習に重点を置いており、可視光と赤外光の相違を減らす。
本稿では,新しい相互情報・モダリティコンセンサスネットワーク,すなわちCMInfoNetを提案し,モダリティ不変な同一性の特徴を抽出する。
論文 参考訳(メタデータ) (2023-08-29T06:55:42Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Deep feature selection-and-fusion for RGB-D semantic segmentation [8.831857715361624]
本研究は,fsfnet (unified and efficient feature selection and-fusion network) を提案する。
FSFNetは、マルチモダリティ情報の明示的な融合に使用される対称クロスモダリティ残留融合モジュールを含む。
最新の手法と比較すると,提案モデルが2つの公開データセットで競合性能を発揮できることを実験的に評価した。
論文 参考訳(メタデータ) (2021-05-10T04:02:32Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。