論文の概要: LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification
- arxiv url: http://arxiv.org/abs/2503.23722v2
- Date: Tue, 26 Aug 2025 02:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 15:23:52.286404
- Title: LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification
- Title(参考訳): LATex:Aerial-Ground Person Re-Identificationのための属性ベースのテキスト知識を活用する
- Authors: Xiang Hu, Yuhao Wang, Pingping Zhang, Huchuan Lu,
- Abstract要約: 我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAG-ReIDの性能を向上させることができる。
- 参考スコア(独自算出の注目度): 78.73711446918814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important task in intelligent transportation systems, Aerial-Ground person Re-IDentification (AG-ReID) aims to retrieve specific persons across heterogeneous cameras in different viewpoints. Previous methods typically adopt deep learning-based models, focusing on extracting view-invariant features. However, they usually overlook the semantic information in person attributes. In addition, existing training strategies often rely on full fine-tuning large-scale models, which significantly increases training costs. To address these issues, we propose a novel framework named LATex for AG-ReID, which adopts prompt-tuning strategies to leverage attribute-based text knowledge. More specifically, we first introduce the Contrastive Language-Image Pre-training (CLIP) model as the backbone, and propose an Attribute-aware Image Encoder (AIE) to extract both global semantic features and attribute-aware features from input images. Then, with these features, we propose a Prompted Attribute Classifier Group (PACG) to predict person attributes and obtain attribute representations. Finally, we design a Coupled Prompt Template (CPT) to transform attribute representations and view information into structured sentences. These sentences are processed by the text encoder of CLIP to generate more discriminative features. As a result, our framework can fully leverage attribute-based text knowledge to improve AG-ReID performance. Extensive experiments on three AG-ReID benchmarks demonstrate the effectiveness of our proposed methods. The source code will be available.
- Abstract(参考訳): インテリジェントトランスポートシステムにおける重要な課題として、Aerial-Ground person Re-IDentification (AG-ReID) は、異なる視点で異種カメラを通して特定の人物を回収することを目的としている。
従来の手法は一般的にディープラーニングに基づくモデルを採用しており、ビュー不変の特徴の抽出に重点を置いている。
しかし、通常は個人属性のセマンティック情報を見落としている。
さらに、既存のトレーニング戦略は、トレーニングコストを大幅に増加させる、完全な微調整の大規模モデルに依存していることが多い。
これらの課題に対処するために,属性ベースのテキスト知識を活用するための迅速なチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
より具体的には、コントラスト言語-画像事前学習(CLIP)モデルをバックボーンとして導入し、入力画像からグローバルなセマンティック特徴と属性認識特徴の両方を抽出する属性対応画像エンコーダ(AIE)を提案する。
そして,これらの特徴を活かして,人物属性を予測し属性表現を得るためのPACG(Prompted Attribute Classifier Group)を提案する。
最後に、属性表現を変換し、情報を構造化文に変換するための結合プロンプトテンプレート(CPT)を設計する。
これらの文はCLIPのテキストエンコーダによって処理され、より識別的な特徴を生成する。
その結果,本フレームワークは属性ベースのテキスト知識を十分に活用し,AG-ReIDの性能を向上させることができた。
3つのAG-ReIDベンチマークの大規模な実験により,提案手法の有効性が示された。
ソースコードは利用可能になる。
関連論文リスト
- TSAL: Few-shot Text Segmentation Based on Attribute Learning [21.413607725856263]
本稿では,CLIPの事前知識を利用してテキスト属性のセグメンテーションを学習するTSALを提案する。
データ依存性を低減し、テキスト検出精度を向上させるため、適応的なプロンプト誘導分岐は効果的な適応的なプロンプトテンプレートを使用する。
実験により, 複数テキストセグメンテーションデータセット上でのSOTA性能について, 数ショット設定で検証した。
論文 参考訳(メタデータ) (2025-04-15T13:12:42Z) - CILP-FGDI: Exploiting Vision-Language Model for Generalizable Person Re-Identification [42.429118831928214]
CLIP(Contrastive Language- Image Pretraining)は,大規模画像テキストペア上で事前訓練された視覚言語モデルである。
CLIPのタスクへの適応は、識別能力を高めるためによりきめ細かい機能を学ぶことと、モデルの一般化能力を改善するためによりドメイン不変の機能を学ぶ、という2つの大きな課題を示す。
論文 参考訳(メタデータ) (2025-01-27T14:08:25Z) - CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。