Fugu-MT 論文翻訳(概要): CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification

論文の概要: CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification

arxiv url: http://arxiv.org/abs/2401.05806v2
Date: Fri, 12 Jan 2024 11:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 12:14:42.868031
Title: CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification
Title（参考訳）: 可視赤外人物再同定のためのCLIP-Driven Semantic Discovery Network
Authors: Xiaoyan Yu, Neng Dong, Liehuang Zhu, Hao Peng, Dapeng Tao
Abstract要約: モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
参考スコア（独自算出の注目度）: 39.262536758248245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visible-infrared person re-identification (VIReID) primarily deals with matching identities across person images from different modalities. Due to the modality gap between visible and infrared images, cross-modality identity matching poses significant challenges. Recognizing that high-level semantics of pedestrian appearance, such as gender, shape, and clothing style, remain consistent across modalities, this paper intends to bridge the modality gap by infusing visual features with high-level semantics. Given the capability of CLIP to sense high-level semantic information corresponding to visual representations, we explore the application of CLIP within the domain of VIReID. Consequently, we propose a CLIP-Driven Semantic Discovery Network (CSDN) that consists of Modality-specific Prompt Learner, Semantic Information Integration (SII), and High-level Semantic Embedding (HSE). Specifically, considering the diversity stemming from modality discrepancies in language descriptions, we devise bimodal learnable text tokens to capture modality-private semantic information for visible and infrared images, respectively. Additionally, acknowledging the complementary nature of semantic details across different modalities, we integrate text features from the bimodal language descriptions to achieve comprehensive semantics. Finally, we establish a connection between the integrated text features and the visual features across modalities. This process embed rich high-level semantic information into visual representations, thereby promoting the modality invariance of visual representations. The effectiveness and superiority of our proposed CSDN over existing methods have been substantiated through experimental evaluations on multiple widely used benchmarks. The code will be released at \url{https://github.com/nengdong96/CSDN}.
Abstract（参考訳）: Visible-infrared person re-identification (VIReID)は、主に異なるモダリティの人物画像間の一致したアイデンティティを扱う。可視画像と赤外線画像のモダリティギャップのため、相互モダリティのアイデンティティマッチングには大きな課題がある。本稿では,性別,形状,衣服スタイルといった歩行者の外観の高レベルセマンティクスが,モダリティにわたって一貫していることを認識し,視覚特徴を高レベルセマンティクスに反映することでモダリティギャップを橋渡しすることを目的とする。視覚表現に対応する高レベルの意味情報を認識できるCLIPの能力を考えると,VIReIDの領域におけるCLIPの適用について検討する。提案するCLIP-Driven Semantic Discovery Network (CSDN) は,モダリティ固有のPrompt Learner, Semantic Information Integration (SII), High-level Semantic Embedding (HSE) から構成される。具体的には、言語記述におけるモダリティの相違から生じる多様性を考慮して、バイモーダル学習可能なテキストトークンを考案し、可視画像と赤外線画像のモダリティプライベートな意味情報を取得する。さらに,様々なモダリティにまたがるセマンティックディテールの相補的な性質を認め,バイモーダル言語記述からのテキスト特徴を統合し,包括的なセマンティクスを実現する。最後に,統合されたテキスト機能とモダリティ間の視覚的特徴との接続を確立する。このプロセスは、リッチなハイレベルな意味情報を視覚表現に組み込み、視覚表現のモダリティ不変性を促進する。提案手法に対するCSDNの有効性と優位性は,複数の広く用いられているベンチマーク実験により実証された。コードは \url{https://github.com/nengdong96/CSDN} でリリースされる。

関連論文リスト

Diverse Semantics-Guided Feature Alignment and Decoupling for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-Infrared Person Re-Identification (VI-ReID) は、可視像と赤外線像の相違が大きいため、課題である。本稿では,異なるモーダルからの識別関連特徴をテキスト埋め込み空間に整列させるために,DSFAD(Diverse Semantics-Guided Feature Alignment and Decoupling)ネットワークを提案する。
論文参考訳（メタデータ） (2025-05-01T15:55:38Z)
Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-29T10:17:57Z)
Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T14:27:30Z)
See What You Seek: Semantic Contextual Integration for Cloth-Changing Person Re-Identification [16.845045499676793]
衣服交換者再識別(CC-ReID)は、衣服の変化にもかかわらず、複数の監視カメラで個人をマッチングすることを目的としている。既存の方法は通常、衣服の変化の影響を緩和したり、ID関連機能を強化することに重点を置いている。本稿では,CC-ReIDのための新しいプロンプト学習フレームワークSemantic Contextual Integration(SCI)を提案する。
論文参考訳（メタデータ） (2024-12-02T10:11:16Z)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文参考訳（メタデータ） (2024-09-30T05:25:51Z)
SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-23T11:31:11Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
Shape-Erased Feature Learning for Visible-Infrared Person Re-Identification [90.39454748065558]
体型は、VI-ReIDにとって重要なモダリティシェードの1つである。本稿では,2つの部分空間におけるモダリティ共有特徴を関連づける形状学習パラダイムを提案する。 SYSU-MM01, RegDB, HITSZ-VCMデータセットを用いた実験により, 本手法の有効性が示された。
論文参考訳（メタデータ） (2023-04-09T10:22:10Z)
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features [11.48760300147023]
本稿では,MATRN(Multi-Almod Text Recognition Network)と呼ばれる新しい手法を提案する。 MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。実験の結果,MATRNは7つのベンチマークで最先端のパフォーマンスを達成できた。
論文参考訳（メタデータ） (2021-11-30T10:22:11Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
AXM-Net: Cross-Modal Context Sharing Attention Network for Person Re-ID [20.700750237972155]
クロスモーダルな人物識別(Re-ID)は、現代のビデオ監視システムにおいて重要である。主な課題は、人に存在する意味情報に従ってモダリティ間表現を整合させ、背景情報を無視することです。 AXM-Netは、意味的に整列された視覚およびテキスト表現を学習するために設計された新しいCNNベースのアーキテクチャである。
論文参考訳（メタデータ） (2021-01-19T16:06:39Z)
Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文参考訳（メタデータ） (2020-10-01T16:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。