論文の概要: X-ReID: Multi-granularity Information Interaction for Video-Based Visible-Infrared Person Re-Identification
- arxiv url: http://arxiv.org/abs/2511.17964v2
- Date: Tue, 25 Nov 2025 05:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 15:01:35.368356
- Title: X-ReID: Multi-granularity Information Interaction for Video-Based Visible-Infrared Person Re-Identification
- Title(参考訳): X-ReID:映像に基づく可視赤外人物再同定のための多粒性情報インタラクション
- Authors: Chenyang Yu, Xuehu Liu, Pingping Zhang, Huchuan Lu,
- Abstract要約: 本稿では,VVI-ReIDのためのX-ReIDという新しいクロスモーダル特徴学習フレームワークを提案する。
具体的には、まずクロスモダリティプロトタイプコラボレーション(CPC)を提案する。
次に, 隣接フレームからの短期的相互作用, 長期的クロスフレーム情報融合, クロスモダリティ特徴アライメントを組み込んだMII(Multi-granularity Information Interaction)を設計する。
- 参考スコア(独自算出の注目度): 79.37768038337971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models (e.g., CLIP) have recently achieved remarkable performance in retrieval tasks, yet their potential for Video-based Visible-Infrared Person Re-Identification (VVI-ReID) remains largely unexplored. The primary challenges are narrowing the modality gap and leveraging spatiotemporal information in video sequences. To address the above issues, in this paper, we propose a novel cross-modality feature learning framework named X-ReID for VVI-ReID. Specifically, we first propose a Cross-modality Prototype Collaboration (CPC) to align and integrate features from different modalities, guiding the network to reduce the modality discrepancy. Then, a Multi-granularity Information Interaction (MII) is designed, incorporating short-term interactions from adjacent frames, long-term cross-frame information fusion, and cross-modality feature alignment to enhance temporal modeling and further reduce modality gaps. Finally, by integrating multi-granularity information, a robust sequence-level representation is achieved. Extensive experiments on two large-scale VVI-ReID benchmarks (i.e., HITSZ-VCM and BUPTCampus) demonstrate the superiority of our method over state-of-the-art methods. The source code is released at https://github.com/AsuradaYuci/X-ReID.
- Abstract(参考訳): 大規模視覚言語モデル(例えば、CLIP)は、最近、検索タスクにおいて顕著なパフォーマンスを達成したが、ビデオベースの可視赤外線人物再識別(VVI-ReID)の可能性は、まだ明らかにされていない。
主な課題は、モダリティギャップを狭め、ビデオシーケンスにおける時空間情報を活用することである。
そこで本稿では,VVI-ReID用のX-ReIDという,新しいクロスモーダル特徴学習フレームワークを提案する。
具体的には,まずCPC(Cross-modality Prototype Collaboration)を提案する。
そして、隣接するフレームからの短期的相互作用、長期的クロスフレーム情報融合、および時間的モデリングを強化し、モダリティギャップをさらに低減するために、多言語情報インタラクション(MII)を設計する。
最後に、多粒度情報を統合することにより、堅牢なシーケンスレベル表現を実現する。
2つの大規模VVI-ReIDベンチマーク(HITSZ-VCMとBUPTCampus)に対する大規模な実験は、我々の手法が最先端の手法よりも優れていることを示す。
ソースコードはhttps://github.com/AsuradaYuci/X-ReIDで公開されている。
関連論文リスト
- DINOv2 Driven Gait Representation Learning for Video-Based Visible-Infrared Person Re-identification [30.593882551803855]
Visible-Infrared person re-identification (VVI-ID) は、視界と赤外線を横断する同じ歩行者をモダリティから回収することを目的としている。
これらの課題に対処するために、DINOv2の豊富な視覚的優位性を活用して、外観に相補的な歩行特徴を学習するゲイト表現学習フレームワークを提案する。
具体的にはセマンティック・アウェア・シルエット・ゲイトラーニング(GL)モデルを提案する。
論文 参考訳(メタデータ) (2025-11-06T11:21:13Z) - Hierarchical Identity Learning for Unsupervised Visible-Infrared Person Re-Identification [81.3063589622217]
教師なし可視赤外線人物再識別(USVI-ReID)は、ラベルのないクロスモーダルな人物データセットからモダリティ不変の画像特徴を学習することを目的としている。
論文 参考訳(メタデータ) (2025-09-15T05:10:43Z) - AG-VPReID.VIR: Bridging Aerial and Ground Platforms for Video-based Visible-Infrared Person Re-ID [36.00219379027019]
我々は,最初の空対地ビデオベース人物Re-IDデータセットであるAG-VPReID.VIRを提示する。
このデータセットは、4,861個のトラックレット(124,855フレーム)にまたがる1,837個のアイデンティティを、UAV搭載と固定CCTVカメラの両方をRGBおよび赤外線モダリティでキャプチャする。
提案手法は, 空間的視点とRGB-IRモダリティの領域ギャップを, スタイルロバストな特徴学習, メモリベース・クロスビュー適応, 中間誘導時間モデルにより埋める。
論文 参考訳(メタデータ) (2025-07-24T00:13:25Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion
Recognition [24.02488085447691]
そこで本稿では,MixUp の補足として機能する ShuffleMix という新しいビデオデータ拡張手法を提案する。
第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-16T19:00:23Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。