論文の概要: CLIP-SENet: CLIP-based Semantic Enhancement Network for Vehicle Re-identification
- arxiv url: http://arxiv.org/abs/2502.16815v1
- Date: Mon, 24 Feb 2025 03:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:08.965483
- Title: CLIP-SENet: CLIP-based Semantic Enhancement Network for Vehicle Re-identification
- Title(参考訳): CLIP-SENet:車の再識別のためのCLIPベースのセマンティックエンハンスメントネットワーク
- Authors: Liping Lu, Zihao Fu, Duanfeng Chu, Wei Wang, Bingrong Xu,
- Abstract要約: 本稿では,CLIPに基づくセマンティック・エンハンスメント・ネットワーク(CLIP-SENet)を提案する。
CLIP-SENetは、車両のセマンティック属性を自律的に抽出し洗練するように設計されたエンドツーエンドフレームワークである。
我々のアプローチは、VeRi-776データセットで92.9% mAPと98.7% Rank-1、VeRi-Wildデータセットで90.4% Rank-1と98.7% Rank-5、89.1% mAPと97.9% Rank-1という新しい最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 11.817329389930489
- License:
- Abstract: Vehicle re-identification (Re-ID) is a crucial task in intelligent transportation systems (ITS), aimed at retrieving and matching the same vehicle across different surveillance cameras. Numerous studies have explored methods to enhance vehicle Re-ID by focusing on semantic enhancement. However, these methods often rely on additional annotated information to enable models to extract effective semantic features, which brings many limitations. In this work, we propose a CLIP-based Semantic Enhancement Network (CLIP-SENet), an end-to-end framework designed to autonomously extract and refine vehicle semantic attributes, facilitating the generation of more robust semantic feature representations. Inspired by zero-shot solutions for downstream tasks presented by large-scale vision-language models, we leverage the powerful cross-modal descriptive capabilities of the CLIP image encoder to initially extract general semantic information. Instead of using a text encoder for semantic alignment, we design an adaptive fine-grained enhancement module (AFEM) to adaptively enhance this general semantic information at a fine-grained level to obtain robust semantic feature representations. These features are then fused with common Re-ID appearance features to further refine the distinctions between vehicles. Our comprehensive evaluation on three benchmark datasets demonstrates the effectiveness of CLIP-SENet. Our approach achieves new state-of-the-art performance, with 92.9% mAP and 98.7% Rank-1 on VeRi-776 dataset, 90.4% Rank-1 and 98.7% Rank-5 on VehicleID dataset, and 89.1% mAP and 97.9% Rank-1 on the more challenging VeRi-Wild dataset.
- Abstract(参考訳): 車両再識別(Re-ID)はインテリジェントトランスポートシステム(ITS)において重要な課題であり、異なる監視カメラで同じ車両を回収、マッチングすることを目的としている。
セマンティックエンハンスメントに着目して、車両のRe-IDを強化する方法について多くの研究がなされている。
しかし、これらの手法は、モデルが効果的な意味的特徴を抽出できるように、追加の注釈付き情報に依存することが多く、多くの制限が生じる。
本研究では,CLIPをベースとしたセマンティック・エンハンスメント・ネットワーク(CLIP-SENet)を提案する。
大規模視覚言語モデルによって提示される下流タスクに対するゼロショットソリューションにインスパイアされた我々は、CLIP画像エンコーダの強力なクロスモーダル記述機能を利用して、まず一般的な意味情報を抽出する。
セマンティックアライメントのためにテキストエンコーダを使用する代わりに、この一般的なセマンティック情報を微粒レベルで適応的に拡張し、ロバストなセマンティック特徴表現を得るための適応的微粒化拡張モジュール(AFEM)を設計する。
これらの特徴は、車両間の区別をさらに洗練させるために、共通のRe-ID外観特徴と融合される。
CLIP-SENetの有効性を示す3つのベンチマークデータセットの総合評価を行った。
我々のアプローチは、VeRi-776データセットで92.9% mAPと98.7% Rank-1、VeRi-Wildデータセットで90.4% Rank-1と98.7% Rank-5、89.1% mAPと97.9% Rank-1という新しい最先端のパフォーマンスを実現している。
関連論文リスト
- Object Re-identification via Spatial-temporal Fusion Networks and Causal Identity Matching [4.123763595394021]
空間時間融合ネットワークと因果同一性マッチング(CIM)を利用した新しいReIDフレームワークを提案する。
本フレームワークは,提案した適応型Parzenウィンドウを用いてカメラネットワークトポロジを推定し,外観特徴と融合ネットワーク内の空間的時間的手がかりを組み合わせる。
このアプローチは、VeRi776、Vine-3I、Market-1501を含むいくつかのデータセットで顕著な性能を示し、99.70%のランク1の精度と95.5%のmAPを達成した。
論文 参考訳(メタデータ) (2024-08-10T13:50:43Z) - VehicleGAN: Pair-flexible Pose Guided Image Synthesis for Vehicle Re-identification [27.075761782915496]
本稿では,ターゲットポーズにおける多数の車両画像の合成を提案する。
異なる交通監視カメラで同じ車両のペアのデータが現実世界では利用できない可能性があることを考慮し、VagerGANを提案する。
実データと合成データの特徴分布の違いから,効率的な特徴レベル融合によるJML(Joint Metric Learning)を提案する。
論文 参考訳(メタデータ) (2023-11-27T19:34:04Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - A High-Accuracy Unsupervised Person Re-identification Method Using
Auxiliary Information Mined from Datasets [53.047542904329866]
マルチモーダルな特徴学習のためのデータセットから抽出した補助情報を利用する。
本稿では,Restricted Label Smoothing Cross Entropy Loss (RLSCE), Weight Adaptive Triplet Loss (WATL), Dynamic Training Iterations (DTI)の3つの効果的なトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-06T10:16:18Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - A Strong Baseline for Vehicle Re-Identification [1.9573380763700712]
vehicle re-idは、異なるカメラで同じ車両を識別することを目指している。
本稿では、まず車両再ID性能を阻害する主な要因を分析します。
次に、第5回AIチャレンジのトラック2をターゲットとしたソリューションを紹介します。
論文 参考訳(メタデータ) (2021-04-22T03:54:55Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - AttributeNet: Attribute Enhanced Vehicle Re-Identification [70.89289512099242]
本稿では,属性特徴と属性特徴を共同で抽出するAttributeNet(ANet)を提案する。
ReID-helpful属性特徴を蒸留し、一般的なReID特徴に加えることで、識別能力を高めることができる。
3つの挑戦的なデータセットに対して,我々のフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2021-02-07T19:51:02Z) - VehicleNet: Learning Robust Visual Representation for Vehicle
Re-identification [116.1587709521173]
我々は,4つのパブリックな車両データセットを活用することで,大規模車両データセット(VabyNet)を構築することを提案する。
VehicleNetからより堅牢な視覚表現を学習するための、シンプルで効果的な2段階プログレッシブアプローチを設計する。
AICity Challengeのプライベートテストセットにおいて,最先端の精度86.07%mAPを実現した。
論文 参考訳(メタデータ) (2020-04-14T05:06:38Z) - Attribute-guided Feature Learning Network for Vehicle Re-identification [13.75036137728257]
自動車再識別(reID)は都市監視ビデオの自動解析において重要な役割を果たしている。
本稿では,属性の豊富なグローバル表現を学習可能な新しいAttribute-Guided Network(AGNet)を提案する。
論文 参考訳(メタデータ) (2020-01-12T06:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。