論文の概要: ICPL-ReID: Identity-Conditional Prompt Learning for Multi-Spectral Object Re-Identification
- arxiv url: http://arxiv.org/abs/2505.17821v1
- Date: Fri, 23 May 2025 12:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.068213
- Title: ICPL-ReID: Identity-Conditional Prompt Learning for Multi-Spectral Object Re-Identification
- Title(参考訳): ICPL-ReID:多スペクトル物体再同定のためのID-Conditional Prompt Learning
- Authors: Shihao Li, Chenglong Li, Aihua Zheng, Jin Tang, Bin Luo,
- Abstract要約: マルチスペクトルオブジェクト再識別(ReID)は、スマートシティとインテリジェントトランスポートアプリケーションに対して、新たな認識視点を提供する。
既存のほとんどの手法は複雑なモーダル相互作用モジュールを通してスペクトルデータを融合し、スペクトル情報の詳細なセマンティック理解を欠いている。
筆者らは,CLIPの強力なクロスモーダルアライメント機能を利用する,ICPL(Identity-Conditional Text Prompt Learning framework)を提案する。
- 参考スコア(独自算出の注目度): 25.953780086825457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-spectral object re-identification (ReID) brings a new perception perspective for smart city and intelligent transportation applications, effectively addressing challenges from complex illumination and adverse weather. However, complex modal differences between heterogeneous spectra pose challenges to efficiently utilizing complementary and discrepancy of spectra information. Most existing methods fuse spectral data through intricate modal interaction modules, lacking fine-grained semantic understanding of spectral information (\textit{e.g.}, text descriptions, part masks, and object keypoints). To solve this challenge, we propose a novel Identity-Conditional text Prompt Learning framework (ICPL), which exploits the powerful cross-modal alignment capability of CLIP, to unify different spectral visual features from text semantics. Specifically, we first propose the online prompt learning using learnable text prompt as the identity-level semantic center to bridge the identity semantics of different spectra in online manner. Then, in lack of concrete text descriptions, we propose the multi-spectral identity-condition module to use identity prototype as spectral identity condition to constraint prompt learning. Meanwhile, we construct the alignment loop mutually optimizing the learnable text prompt and spectral visual encoder to avoid online prompt learning disrupting the pre-trained text-image alignment distribution. In addition, to adapt to small-scale multi-spectral data and mitigate style differences between spectra, we propose multi-spectral adapter that employs a low-rank adaption method to learn spectra-specific features. Comprehensive experiments on 5 benchmarks, including RGBNT201, Market-MM, MSVR310, RGBN300, and RGBNT100, demonstrate that the proposed method outperforms the state-of-the-art methods.
- Abstract(参考訳): マルチスペクトルオブジェクト再識別(ReID)は、スマートシティとインテリジェントトランスポートアプリケーションに新たな認識視点をもたらし、複雑な照明や悪天候からの課題に効果的に対処する。
しかし、異種スペクトル間の複雑なモード差は、スペクトル情報の相補的・相違を効率的に活用する上での課題となる。
既存のほとんどのメソッドは複雑なモーダル相互作用モジュールを通してスペクトルデータを融合し、スペクトル情報(\textit{e g }、テキスト記述、部分マスク、オブジェクトキーポイント)の詳細なセマンティック理解を欠いている。
この課題を解決するために、CLIPの強力なクロスモーダルアライメント機能を利用して、テキストセマンティクスから異なるスペクトル視覚的特徴を統一する、ICPL(Identity-Conditional Text Prompt Learning framework)を提案する。
具体的には、まず、学習可能なテキストプロンプトをアイデンティティレベルセマンティックセンタとして用いて、異なるスペクトルのアイデンティティセマンティクスをオンライン的にブリッジするオンラインプロンプト学習を提案する。
そこで本論文では,具体的テキスト記述が欠如しているため,識別プロトタイプをスペクトル識別条件として用いるマルチスペクトル識別条件モジュールを提案する。
一方、学習可能なテキストプロンプトとスペクトルビジュアルエンコーダを相互に最適化するアライメントループを構築し、事前学習されたテキストイメージアライメント分布を妨害するオンラインプロンプト学習を回避する。
また、小型マルチスペクトルデータに適応し、スペクトル間のスタイルの違いを軽減するために、低ランク適応法を用いてスペクトル固有の特徴を学習するマルチスペクトルアダプタを提案する。
RGBNT201、Market-MM、MSVR310、RGBN300、RGBNT100を含む5つのベンチマークの総合的な実験により、提案手法が最先端の手法よりも優れていることを示した。
関連論文リスト
- Diverse Semantics-Guided Feature Alignment and Decoupling for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-Infrared Person Re-Identification (VI-ReID) は、可視像と赤外線像の相違が大きいため、課題である。
本稿では,異なるモーダルからの識別関連特徴をテキスト埋め込み空間に整列させるために,DSFAD(Diverse Semantics-Guided Feature Alignment and Decoupling)ネットワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T15:55:38Z) - MP-HSIR: A Multi-Prompt Framework for Universal Hyperspectral Image Restoration [15.501904258858112]
ハイパースペクトル画像(HSI)は、イメージング中に多彩で未知の劣化に悩まされることが多い。
既存のHSI復元法は特定の劣化仮定に依存しており、複雑なシナリオでの有効性を制限している。
我々は,スペクトル,テキスト,視覚的プロンプトを効果的に統合し,汎用的なHSI復元を実現する,新しいマルチプロンプトフレームワークMP-HSIRを提案する。
論文 参考訳(メタデータ) (2025-03-12T07:40:49Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - CLIP-Driven Semantic Discovery Network for Visible-Infrared Person
Re-Identification [39.262536758248245]
モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。
本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
論文 参考訳(メタデータ) (2024-01-11T10:20:13Z) - TOP-ReID: Multi-spectral Object Re-Identification with Token Permutation [64.65950381870742]
マルチスペクトルオブジェクトReID, Dubbled TOP-ReIDのための循環トークン置換フレームワークを提案する。
また,巡回多スペクトル特徴アグリゲーションのためのToken Permutation Module (TPM)を提案する。
提案するフレームワークは,ロバストなオブジェクトReIDに対して,より識別性の高いマルチスペクトル特徴を生成できる。
論文 参考訳(メタデータ) (2023-12-15T08:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。