論文の概要: What Makes You Unique? Attribute Prompt Composition for Object Re-Identification
- arxiv url: http://arxiv.org/abs/2509.18715v1
- Date: Tue, 23 Sep 2025 07:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.740174
- Title: What Makes You Unique? Attribute Prompt Composition for Object Re-Identification
- Title(参考訳): ユニークなものは何か? 物体再同定のためのプロンプト構成
- Authors: Yingquan Wang, Pingping Zhang, Chong Sun, Dong Wang, Huchuan Lu,
- Abstract要約: Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 70.67907354506278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object Re-IDentification (ReID) aims to recognize individuals across non-overlapping camera views. While recent advances have achieved remarkable progress, most existing models are constrained to either single-domain or cross-domain scenarios, limiting their real-world applicability. Single-domain models tend to overfit to domain-specific features, whereas cross-domain models often rely on diverse normalization strategies that may inadvertently suppress identity-specific discriminative cues. To address these limitations, we propose an Attribute Prompt Composition (APC) framework, which exploits textual semantics to jointly enhance discrimination and generalization. Specifically, we design an Attribute Prompt Generator (APG) consisting of a Semantic Attribute Dictionary (SAD) and a Prompt Composition Module (PCM). SAD is an over-complete attribute dictionary to provide rich semantic descriptions, while PCM adaptively composes relevant attributes from SAD to generate discriminative attribute-aware features. In addition, motivated by the strong generalization ability of Vision-Language Models (VLM), we propose a Fast-Slow Training Strategy (FSTS) to balance ReID-specific discrimination and generalizable representation learning. Specifically, FSTS adopts a Fast Update Stream (FUS) to rapidly acquire ReID-specific discriminative knowledge and a Slow Update Stream (SUS) to retain the generalizable knowledge inherited from the pre-trained VLM. Through a mutual interaction, the framework effectively focuses on ReID-relevant features while mitigating overfitting. Extensive experiments on both conventional and Domain Generalized (DG) ReID datasets demonstrate that our framework surpasses state-of-the-art methods, exhibiting superior performances in terms of both discrimination and generalization. The source code is available at https://github.com/AWangYQ/APC.
- Abstract(参考訳): オブジェクト再識別(ReID)は、重複しないカメラビューで個人を認識することを目的としている。
最近の進歩は目覚ましい進歩を遂げているが、既存のモデルのほとんどは単一ドメインまたはクロスドメインのシナリオに制約されており、実際の適用範囲が制限されている。
単一ドメインモデルはドメイン固有の特徴に過度に適合する傾向があり、一方、クロスドメインモデルは、ID固有の差別的手がかりを必然的に抑制する様々な正規化戦略に依存していることが多い。
これらの制約に対処するために,テキスト意味論を利用して識別と一般化を協調的に強化する属性・プロンプト・コンポジション(APC)フレームワークを提案する。
具体的には,Attribute Prompt Generator (APG) を,Semantic Attribute Dictionary (SAD) と Prompt Composition Module (PCM) で設計する。
SADは豊富な意味記述を提供するための過剰完全属性辞書であり、PCMはSADから関連属性を適応的に合成し、識別的属性認識機能を生成する。
さらに、視覚言語モデル(VLM)の強力な一般化能力により、ReID固有の識別と一般化可能な表現学習のバランスをとるために、FSTS(Fast-Slow Training Strategy)を提案する。
具体的には、FSTSはFast Update Stream(FUS)を採用して、ReID固有の識別知識を迅速に取得し、Slow Update Stream(SUS)を使用して、事前訓練されたVLMから受け継がれた一般化可能な知識を保持する。
相互の相互作用を通じて、フレームワークは、オーバーフィッティングを緩和しながら、ReID関連機能に効果的にフォーカスする。
従来のドメイン一般化(DG)とドメイン一般化(DG)の両方のReIDデータセットに対する大規模な実験により、我々のフレームワークは最先端の手法を超越し、差別と一般化の両面で優れた性能を示した。
ソースコードはhttps://github.com/AWangYQ/APCで入手できる。
関連論文リスト
- LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAG-ReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability [54.420663939897686]
本稿では,解釈可能な画像認識を実現するために,Attribute-formed Language Bottleneck Model (ALBM)を提案する。
ALBMは属性形式クラス固有の空間において概念を整理する。
解釈性をさらに向上するため,細粒度属性の視覚的特徴を抽出するVAPL(Visual Attribute Prompt Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-26T07:59:04Z) - Domain Consistency Representation Learning for Lifelong Person Re-Identification [31.076769754593098]
LReID(Lifelong person re-identification)は、連続データから学ぶ際に、ドメイン内識別とドメイン間ギャップの間に矛盾した関係を示す。
ドメイン内識別とドメイン間ギャップのバランスをとるために,グローバルおよび属性ワイド表現を探索する新しいドメイン一貫性表現学習(DCR)モデルを提案する。
我々のDCRは最先端のLReID法と比較して優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-09-30T05:19:09Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - Calibrated Feature Decomposition for Generalizable Person
Re-Identification [82.64133819313186]
Calibrated Feature Decomposition (CFD)モジュールは、人物の再識別の一般化能力の向上に焦点を当てている。
キャリブレーション・アンド・スタンダード化されたバッチ正規化(CSBN)は、キャリブレーションされた人物表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-11-27T17:12:43Z) - Style Normalization and Restitution for Generalizable Person
Re-identification [89.482638433932]
我々は、ソースドメイン上でモデルをトレーニングするが、ターゲットドメイン上での一般化や性能をよく行うことのできる、一般化可能な人物ReIDフレームワークを設計する。
本稿では,シンプルで効果的なスタイル正規化・再構成(SNR)モジュールを提案する。
SNRモジュールによって強化された我々のモデルは、複数の広く使われているReIDベンチマークにおいて最先端のドメイン一般化アプローチよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-05-22T07:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。