論文の概要: WRIM-Net: Wide-Ranging Information Mining Network for Visible-Infrared Person Re-Identification
- arxiv url: http://arxiv.org/abs/2408.10624v1
- Date: Tue, 20 Aug 2024 08:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:44:19.991341
- Title: WRIM-Net: Wide-Ranging Information Mining Network for Visible-Infrared Person Re-Identification
- Title(参考訳): WRIM-Net:視覚障害者再識別のための広帯域情報マイニングネットワーク
- Authors: Yonggan Wu, Ling-Chao Meng, Yuan Zichao, Sixian Chan, Hong-Qiang Wang,
- Abstract要約: 本稿では,多次元インタラクティブ情報マイニング(MIIM)モジュールと補助情報に基づくコントラスト学習(AICL)アプローチを主とするワイドランキング情報マイニングネットワーク(WRIM-Net)を紹介する。
計算複雑性の低い設計により、別々のMIIMを浅い層に配置することができ、ネットワークは特定のモダリティの多重次元情報をよりよくマイニングすることができる。
我々は、よく知られたSYSU-MM01とRegDBデータセットだけでなく、最新の大規模クロスモダリティLLMデータセットにも広範な実験を行う。
- 参考スコア(独自算出の注目度): 8.88666439137662
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For the visible-infrared person re-identification (VI-ReID) task, one of the primary challenges lies in significant cross-modality discrepancy. Existing methods struggle to conduct modality-invariant information mining. They often focus solely on mining singular dimensions like spatial or channel, and overlook the extraction of specific-modality multi-dimension information. To fully mine modality-invariant information across a wide range, we introduce the Wide-Ranging Information Mining Network (WRIM-Net), which mainly comprises a Multi-dimension Interactive Information Mining (MIIM) module and an Auxiliary-Information-based Contrastive Learning (AICL) approach. Empowered by the proposed Global Region Interaction (GRI), MIIM comprehensively mines non-local spatial and channel information through intra-dimension interaction. Moreover, Thanks to the low computational complexity design, separate MIIM can be positioned in shallow layers, enabling the network to better mine specific-modality multi-dimension information. AICL, by introducing the novel Cross-Modality Key-Instance Contrastive (CMKIC) loss, effectively guides the network in extracting modality-invariant information. We conduct extensive experiments not only on the well-known SYSU-MM01 and RegDB datasets but also on the latest large-scale cross-modality LLCM dataset. The results demonstrate WRIM-Net's superiority over state-of-the-art methods.
- Abstract(参考訳): 視覚的赤外線人物再識別(VI-ReID)タスクでは、主要な課題の1つは、重要なモダリティの相違にある。
既存の方法は、モダリティ不変の情報マイニングを行うのに苦労している。
彼らはしばしば、空間やチャネルのような特異次元のマイニングだけに集中し、特定のモダリティの多重次元情報の抽出を見落としている。
本稿では,多次元インタラクティブ情報マイニング(MIIM)モジュールと補助情報に基づくコントラスト学習(AICL)アプローチを主とするワイドランキング情報マイニングネットワーク(WRIM-Net)について紹介する。
提案したGRI(Global Region Interaction)を応用したMIIMは,次元内相互作用を通じて局所的空間情報とチャネル情報を包括的にマイニングする。
さらに、計算複雑性の低い設計により、別々のMIIMを浅い層に配置できるため、ネットワークは特定のモダリティの多重次元情報をよりよくマイニングすることができる。
AICLは、新しいCMKIC(Cross-Modality Key-Instance Contrastive)損失を導入することで、モダリティ不変情報を抽出するネットワークを効果的にガイドする。
我々は、よく知られたSYSU-MM01とRegDBデータセットだけでなく、最新の大規模クロスモダリティLLMデータセットにも広範な実験を行う。
その結果、WRIM-Netは最先端の手法よりも優れていることが示された。
関連論文リスト
- Multimodal Informative ViT: Information Aggregation and Distribution for
Hyperspectral and LiDAR Classification [25.254816993934746]
Multimodal Informative Vit (MIVit) は革新的な情報集約配信機構を備えたシステムである。
MIVitは、各モードの分離されたおよび融合された特徴の実験的分布における冗長性を減少させる。
以上の結果から,MIVitの双方向凝集分配機構は極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-01-06T09:53:33Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Multi-scale Semantic Correlation Mining for Visible-Infrared Person
Re-Identification [19.49945790485511]
MSCMNetは、複数のスケールでセマンティック機能を包括的に活用するために提案されている。
特徴抽出において、モダリティ情報損失を可能な限り小さくする。
SYSU-MM01、RegDB、 LLCMデータセットの大規模な実験により、提案したMSCMNetが最も精度が高いことを示す。
論文 参考訳(メタデータ) (2023-11-24T10:23:57Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Learning Cross-modality Information Bottleneck Representation for
Heterogeneous Person Re-Identification [61.49219876388174]
Visible-Infrared person re-identification (VI-ReID)は、インテリジェントビデオ監視において重要かつ困難な課題である。
既存の手法は主に共有特徴空間の学習に重点を置いており、可視光と赤外光の相違を減らす。
本稿では,新しい相互情報・モダリティコンセンサスネットワーク,すなわちCMInfoNetを提案し,モダリティ不変な同一性の特徴を抽出する。
論文 参考訳(メタデータ) (2023-08-29T06:55:42Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Deep feature selection-and-fusion for RGB-D semantic segmentation [8.831857715361624]
本研究は,fsfnet (unified and efficient feature selection and-fusion network) を提案する。
FSFNetは、マルチモダリティ情報の明示的な融合に使用される対称クロスモダリティ残留融合モジュールを含む。
最新の手法と比較すると,提案モデルが2つの公開データセットで競合性能を発揮できることを実験的に評価した。
論文 参考訳(メタデータ) (2021-05-10T04:02:32Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。