論文の概要: CLIP4VI-ReID: Learning Modality-shared Representations via CLIP Semantic Bridge for Visible-Infrared Person Re-identification
- arxiv url: http://arxiv.org/abs/2511.10309v1
- Date: Fri, 14 Nov 2025 01:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.810859
- Title: CLIP4VI-ReID: Learning Modality-shared Representations via CLIP Semantic Bridge for Visible-Infrared Person Re-identification
- Title(参考訳): CLIP4VI-ReID: Visible-Infrared Person Re-identificationのためのCLIPセマンティックブリッジによるモダリティ共有表現の学習
- Authors: Xiaomei Yang, Xizhan Gao, Sijie Niu, Fa Zhu, Guang Feng, Xiaofeng Qu, David Camacho,
- Abstract要約: 本稿では,VI-ReIDタスクのためのCLIP4VI-ReIDという,CLIP駆動型モダリティ共有表現学習ネットワークを提案する。
自然画像と赤外線画像の物理的特徴の巨大なギャップを考慮すると、TSGは可視画像のみにテキストセマンティクスを生成するように設計されている。
IFEは、生成されたテキストセマンティクスを用いて、赤外線画像の特徴埋め込みを修正するために提案されている。
最後に、ハイレベルなセマンティックアライメントを洗練するためにHSAが確立される。
- 参考スコア(独自算出の注目度): 16.84937372942805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel CLIP-driven modality-shared representation learning network named CLIP4VI-ReID for VI-ReID task, which consists of Text Semantic Generation (TSG), Infrared Feature Embedding (IFE), and High-level Semantic Alignment (HSA). Specifically, considering the huge gap in the physical characteristics between natural images and infrared images, the TSG is designed to generate text semantics only for visible images, thereby enabling preliminary visible-text modality alignment. Then, the IFE is proposed to rectify the feature embeddings of infrared images using the generated text semantics. This process injects id-related semantics into the shared image encoder, enhancing its adaptability to the infrared modality. Besides, with text serving as a bridge, it enables indirect visible-infrared modality alignment. Finally, the HSA is established to refine the high-level semantic alignment. This process ensures that the fine-tuned text semantics only contain id-related information, thereby achieving more accurate cross-modal alignment and enhancing the discriminability of the learned modal-shared representations. Extensive experimental results demonstrate that the proposed CLIP4VI-ReID achieves superior performance than other state-of-the-art methods on some widely used VI-ReID datasets.
- Abstract(参考訳): 本稿では,テキスト・セマンティック・ジェネレーション(TSG),赤外線特徴埋め込み(IFE),ハイレベル・セマンティック・アライメント(HSA)から構成される,CLIP4VI-ReID for VI-ReIDという新しいモダリティ共有型表現学習ネットワークを提案する。
具体的には、自然画像と赤外線画像の物理的特徴の巨大なギャップを考慮すると、TSGは可視画像のみにテキストセマンティクスを生成するように設計されており、予備的な可視テキストモダリティアライメントを可能にする。
次に、IFEは、生成されたテキストセマンティクスを用いて、赤外線画像の特徴埋め込みを是正するために提案される。
このプロセスは、共有画像エンコーダにid関連セマンティクスを注入し、赤外線モダリティへの適応性を高める。
さらに、テキストがブリッジとして機能することにより、間接的な可視・赤外線モダリティアライメントを可能にする。
最後に、ハイレベルなセマンティックアライメントを洗練するためにHSAが確立される。
このプロセスは、微調整されたテキストセマンティクスがid関連情報のみを含むことを保証し、より正確なクロスモーダルアライメントを実現し、学習されたモーダル共有表現の識別性を高める。
大規模な実験結果から,提案したCLIP4VI-ReIDは,広く使用されているVI-ReIDデータセットの他の最先端手法よりも優れた性能を示した。
関連論文リスト
- TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval [60.20835288280572]
本稿では,FTI4CIR という ZS-CIR のためのテキスト・インバージョン・ネットワークを提案する。
FTI4CIRは、微粒な擬ワードトークンマッピングとトリワイズキャプションベースのセマンティック正規化の2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2025-03-25T02:51:25Z) - Text-IRSTD: Leveraging Semantic Text to Promote Infrared Small Target Detection in Complex Scenes [3.399048100638418]
我々は,テキストIRSTDと呼ばれる赤外線小ターゲット検出のためのセマンティックテキストを活用した新しいアプローチを提案する。
テキストと画像間の情報融合を容易にするために, プログレッシブ・モーダル・セマンティック・インタラクション・デコーダ (PCSID) を提案する。
さらに,FZDTと呼ばれるファジィセマンティックテキストアノテーションを用いて,異なるシナリオの2,755個の赤外線画像からなる新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-10T12:33:07Z) - Language-Guided Visual Perception Disentanglement for Image Quality Assessment and Conditional Image Generation [48.642826318384294]
CLIPのような対照的な視覚言語モデルは、セマンティック認識タスク間で優れたゼロショット機能を示している。
本稿では, 画像のゆがみを導くために, ゆがみのあるテキストを利用する, マルチモーダルな非絡み付き表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T02:36:48Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.13782704236074]
視覚的および言語的表現を完全に活用するために,新しい参照リモートセンシング画像分割法を提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - PriorCLIP: Visual Prior Guided Vision-Language Model for Remote Sensing Image-Text Retrieval [34.02888653163804]
本稿では、偏見のない表現学習と適応型視覚言語アライメントのための、視覚的事前誘導型視覚誘導モデル(PresideledCLIP)を提案する。
クローズドドメイン設定では、2つのProgressive Attention Attribution(PAE)構造を導入し、キー機能をフィルタリングし、セマンティックバイアスを軽減する。
オープンドメイン設定では、粗い画像とテキストのペアを大規模に事前学習し、次に視覚指導を用いて微細なペアを微調整する2段階の事前表現学習戦略を設計する。
論文 参考訳(メタデータ) (2024-05-16T14:53:45Z) - CLIP-Driven Semantic Discovery Network for Visible-Infrared Person
Re-Identification [39.262536758248245]
モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。
本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
論文 参考訳(メタデータ) (2024-01-11T10:20:13Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。