論文の概要: CLIP-Driven Semantic Discovery Network for Visible-Infrared Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2401.05806v2
- Date: Fri, 12 Jan 2024 11:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 12:14:42.868031
- Title: CLIP-Driven Semantic Discovery Network for Visible-Infrared Person
Re-Identification
- Title(参考訳): 可視赤外人物再同定のためのCLIP-Driven Semantic Discovery Network
- Authors: Xiaoyan Yu, Neng Dong, Liehuang Zhu, Hao Peng, Dapeng Tao
- Abstract要約: モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。
本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
- 参考スコア(独自算出の注目度): 39.262536758248245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visible-infrared person re-identification (VIReID) primarily deals with
matching identities across person images from different modalities. Due to the
modality gap between visible and infrared images, cross-modality identity
matching poses significant challenges. Recognizing that high-level semantics of
pedestrian appearance, such as gender, shape, and clothing style, remain
consistent across modalities, this paper intends to bridge the modality gap by
infusing visual features with high-level semantics. Given the capability of
CLIP to sense high-level semantic information corresponding to visual
representations, we explore the application of CLIP within the domain of
VIReID. Consequently, we propose a CLIP-Driven Semantic Discovery Network
(CSDN) that consists of Modality-specific Prompt Learner, Semantic Information
Integration (SII), and High-level Semantic Embedding (HSE). Specifically,
considering the diversity stemming from modality discrepancies in language
descriptions, we devise bimodal learnable text tokens to capture
modality-private semantic information for visible and infrared images,
respectively. Additionally, acknowledging the complementary nature of semantic
details across different modalities, we integrate text features from the
bimodal language descriptions to achieve comprehensive semantics. Finally, we
establish a connection between the integrated text features and the visual
features across modalities. This process embed rich high-level semantic
information into visual representations, thereby promoting the modality
invariance of visual representations. The effectiveness and superiority of our
proposed CSDN over existing methods have been substantiated through
experimental evaluations on multiple widely used benchmarks. The code will be
released at \url{https://github.com/nengdong96/CSDN}.
- Abstract(参考訳): Visible-infrared person re-identification (VIReID)は、主に異なるモダリティの人物画像間の一致したアイデンティティを扱う。
可視画像と赤外線画像のモダリティギャップのため、相互モダリティのアイデンティティマッチングには大きな課題がある。
本稿では,性別,形状,衣服スタイルといった歩行者の外観の高レベルセマンティクスが,モダリティにわたって一貫していることを認識し,視覚特徴を高レベルセマンティクスに反映することでモダリティギャップを橋渡しすることを目的とする。
視覚表現に対応する高レベルの意味情報を認識できるCLIPの能力を考えると,VIReIDの領域におけるCLIPの適用について検討する。
提案するCLIP-Driven Semantic Discovery Network (CSDN) は,モダリティ固有のPrompt Learner, Semantic Information Integration (SII), High-level Semantic Embedding (HSE) から構成される。
具体的には、言語記述におけるモダリティの相違から生じる多様性を考慮して、バイモーダル学習可能なテキストトークンを考案し、可視画像と赤外線画像のモダリティプライベートな意味情報を取得する。
さらに,様々なモダリティにまたがるセマンティックディテールの相補的な性質を認め,バイモーダル言語記述からのテキスト特徴を統合し,包括的なセマンティクスを実現する。
最後に,統合されたテキスト機能とモダリティ間の視覚的特徴との接続を確立する。
このプロセスは、リッチなハイレベルな意味情報を視覚表現に組み込み、視覚表現のモダリティ不変性を促進する。
提案手法に対するCSDNの有効性と優位性は,複数の広く用いられているベンチマーク実験により実証された。
コードは \url{https://github.com/nengdong96/CSDN} でリリースされる。
関連論文リスト
- SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Shape-Erased Feature Learning for Visible-Infrared Person
Re-Identification [90.39454748065558]
体型は、VI-ReIDにとって重要なモダリティシェードの1つである。
本稿では,2つの部分空間におけるモダリティ共有特徴を関連づける形状学習パラダイムを提案する。
SYSU-MM01, RegDB, HITSZ-VCMデータセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-09T10:22:10Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - Multi-modal Text Recognition Networks: Interactive Enhancements between
Visual and Semantic Features [11.48760300147023]
本稿では,MATRN(Multi-Almod Text Recognition Network)と呼ばれる新しい手法を提案する。
MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。
実験の結果,MATRNは7つのベンチマークで最先端のパフォーマンスを達成できた。
論文 参考訳(メタデータ) (2021-11-30T10:22:11Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - AXM-Net: Cross-Modal Context Sharing Attention Network for Person Re-ID [20.700750237972155]
クロスモーダルな人物識別(Re-ID)は、現代のビデオ監視システムにおいて重要である。
主な課題は、人に存在する意味情報に従ってモダリティ間表現を整合させ、背景情報を無視することです。
AXM-Netは、意味的に整列された視覚およびテキスト表現を学習するために設計された新しいCNNベースのアーキテクチャである。
論文 参考訳(メタデータ) (2021-01-19T16:06:39Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。