論文の概要: ReIDMamba: Learning Discriminative Features with Visual State Space Model for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2511.07948v1
- Date: Wed, 12 Nov 2025 01:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.563062
- Title: ReIDMamba: Learning Discriminative Features with Visual State Space Model for Person Re-Identification
- Title(参考訳): ReIDMamba: 個人再識別のための視覚状態空間モデルによる識別的特徴の学習
- Authors: Hongyang Gu, Qisong Yang, Lei Pu, Siming Han, Yao Ding,
- Abstract要約: 本稿では,ReIDMambaという,純粋なMambaベースのReIDフレームワークを提案する。
提案したReIDMambaモデルでは,TransReIDのパラメータの3分の1しか持たない。
- 参考スコア(独自算出の注目度): 5.546676157182037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extracting robust discriminative features is a critical challenge in person re-identification (ReID). While Transformer-based methods have successfully addressed some limitations of convolutional neural networks (CNNs), such as their local processing nature and information loss resulting from convolution and downsampling operations, they still face the scalability issue due to the quadratic increase in memory and computational requirements with the length of the input sequence. To overcome this, we propose a pure Mamba-based person ReID framework named ReIDMamba. Specifically, we have designed a Mamba-based strong baseline that effectively leverages fine-grained, discriminative global features by introducing multiple class tokens. To further enhance robust features learning within Mamba, we have carefully designed two novel techniques. First, the multi-granularity feature extractor (MGFE) module, designed with a multi-branch architecture and class token fusion, effectively forms multi-granularity features, enhancing both discrimination ability and fine-grained coverage. Second, the ranking-aware triplet regularization (RATR) is introduced to reduce redundancy in features from multiple branches, enhancing the diversity of multi-granularity features by incorporating both intra-class and inter-class diversity constraints, thus ensuring the robustness of person features. To our knowledge, this is the pioneering work that integrates a purely Mamba-driven approach into ReID research. Our proposed ReIDMamba model boasts only one-third the parameters of TransReID, along with lower GPU memory usage and faster inference throughput. Experimental results demonstrate ReIDMamba's superior and promising performance, achieving state-of-the-art performance on five person ReID benchmarks. Code is available at https://github.com/GuHY777/ReIDMamba.
- Abstract(参考訳): 堅牢な識別的特徴の抽出は、個人再識別(ReID)において重要な課題である。
Transformerベースの手法は、局所的な処理特性や畳み込みやダウンサンプリング操作による情報損失など、畳み込みニューラルネットワーク(CNN)のいくつかの制限に対処することに成功したが、それでも、入力シーケンスの長さによるメモリと計算要求の2次増加によるスケーラビリティの問題に直面している。
そこで本研究では,ReIDMambaという,純粋なMambaベースの人物ReIDフレームワークを提案する。
具体的には,複数のクラストークンを導入することで,細粒度で識別可能なグローバルな特徴を効果的に活用する,マンバベースの強力なベースラインを設計した。
マンバにおけるロバストな特徴学習をさらに強化するため,我々は2つの新しい手法を慎重に設計した。
まず,マルチブランチアーキテクチャとクラストークン融合を併用した多粒度特徴抽出器 (MGFE) モジュールを設計し,多粒度特徴を効果的に形成し,識別能力と細粒度カバレッジを向上する。
第2に、複数の枝からの特徴の冗長性を低減し、クラス内およびクラス間多様性の制約を組み込むことにより、多粒度の特徴の多様性を高めるために、ランキング対応三重項正規化(RATR)を導入し、人的特徴の堅牢性を確保する。
私たちの知る限りでは、これは純粋にMamba主導のアプローチをReID研究に統合する先駆的な作業です。
提案したReIDMambaモデルでは,TransReIDのパラメータの3分の1しか持たない。
ReIDMambaの高性能かつ有望な性能を示し、5人のReIDベンチマークで最先端のパフォーマンスを達成した。
コードはhttps://github.com/GuHY777/ReIDMamba.comで入手できる。
関連論文リスト
- Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition [42.4241558556591]
本稿では,画像の局所的相関と静脈特徴表現のためのトークン間のグローバル依存性を明示的に学習するための,GLVM(Global-local Vision Mamba)というハイブリッドネットワーク構造を提案する。
第3に,MHMambaブランチ(MHMamba),FIU(Feature Iteration Unit),CNN(Convolutional Neural Network)という3つのブランチからなるConvMambaブロックを提案する。
最後に,Global Local Alternate Neural Architecture Search (GLNAS)法を提案し,GLVMの最適アーキテクチャを進化的アルゴリズムと交互に探索する。
論文 参考訳(メタデータ) (2024-08-11T10:42:22Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。