論文の概要: ALADIN:Attribute-Language Distillation Network for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2603.21482v1
- Date: Mon, 23 Mar 2026 02:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.439018
- Title: ALADIN:Attribute-Language Distillation Network for Person Re-Identification
- Title(参考訳): ALADIN:Attribute-Language Distillation Network for Person Redentification
- Authors: Wang Zhou, Boran Duan, Haojun Ai, Ruiqi Lan, Ziyue Zhou,
- Abstract要約: ALADINは、冷凍のCLIP教師から軽量のReID学生に知識を蒸留する属性言語蒸留ネットワークである。
Scene-Aware Prompt Generatorは、適応アライメントを容易にするために、画像固有のソフトプロンプトを生成する。
- 参考スコア(独自算出の注目度): 3.350310340720105
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent vision-language models such as CLIP provide strong cross-modal alignment, but current CLIP-guided ReID pipelines rely on global features and fixed prompts. This limits their ability to capture fine-grained attribute cues and adapt to diverse appearances. We propose ALADIN, an attribute-language distillation network that distills knowledge from a frozen CLIP teacher to a lightweight ReID student. ALADIN introduces fine-grained attribute-local alignment to establish adaptive text-visual correspondence and robust representation learning. A Scene-Aware Prompt Generator produces image-specific soft prompts to facilitate adaptive alignment. Attribute-local distillation enforces consistency between textual attributes and local visual features, significantly enhancing robustness under occlusions. Furthermore, we employ cross-modal contrastive and relation distillation to preserve the inherent structural relationships among attributes. To provide precise supervision, we leverage Multimodal LLMs to generate structured attribute descriptions, which are then converted into localized attention maps via CLIP. At inference, only the student is used. Experiments on Market-1501, DukeMTMC-reID, and MSMT17 show improvements over CNN-, Transformer-, and CLIP-based methods, with better generalization and interpretability.
- Abstract(参考訳): CLIPのような最近のビジョン言語モデルは、強力なクロスモーダルアライメントを提供するが、現在のCLIP誘導ReIDパイプラインは、グローバル機能と固定プロンプトに依存している。
これにより、粒度の細かい属性のキューをキャプチャし、さまざまな外観に適応する能力が制限される。
凍結したCLIP教師から軽量のReID学生に知識を蒸留する属性言語蒸留ネットワークであるALADINを提案する。
ALADINは微粒な属性局所アライメントを導入し、適応的なテキスト視覚対応と堅牢な表現学習を確立する。
Scene-Aware Prompt Generatorは、適応アライメントを容易にするために、画像固有のソフトプロンプトを生成する。
属性-局所蒸留は、テキスト属性と局所的な視覚的特徴の一貫性を強制し、閉塞下での堅牢性を大幅に強化する。
さらに, 属性間の構造的関係を維持するために, クロスモーダルコントラスト蒸留とリレー蒸留を用いる。
正確な監視を行うため,マルチモーダルLCMを用いて構造化属性記述を生成し,CLIPを介して局所的なアテンションマップに変換する。
推論では、学生のみが使用される。
Market-1501、DukeMTMC-reID、MSMT17の実験では、CNN-、Transformer-、CLIP-ベースの手法よりも改善され、一般化と解釈性が向上した。
関連論文リスト
- ABE-CLIP: Training-Free Attribute Binding Enhancement for Compositional Image-Text Matching [9.610261779024219]
ABE-CLIPは、CLIPのようなモデルにおける属性オブジェクトのバインディングを強化するために設計された、トレーニング不要な属性バインディング拡張手法である。
我々はセマンティック・リファインメント(Semantic Refinement)機構を用いて、テキスト中のオブジェクトと属性の両方のフレーズに対するトークンの埋め込みを洗練する。
局所化類似度スコアを集約することにより、ABE-CLIPは最終的な画像-テキスト類似度を計算する。
論文 参考訳(メタデータ) (2025-12-19T02:36:51Z) - Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。
我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-06-26T05:28:57Z) - How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Multi-modal Attribute Prompting for Vision-Language Models [40.39559705414497]
VLM(Pre-trained Vision-Language Models)は、タスクをダウンストリームする強力な一般化能力を示すが、少数のシナリオでは苦労する。
既存のプロンプト技術は主にグローバルテキストと画像表現に重点を置いているが、マルチモーダル属性の特徴を見落としている。
テキスト属性プロンプト,視覚属性プロンプト,属性レベルのアライメントを共同で探索し,マルチモーダル属性プロンプト法(MAP)を提案する。
論文 参考訳(メタデータ) (2024-03-01T01:28:10Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。