論文の概要: Hierarchical Prompt Learning for Image- and Text-Based Person Re-Identification
- arxiv url: http://arxiv.org/abs/2511.13575v1
- Date: Mon, 17 Nov 2025 16:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.611645
- Title: Hierarchical Prompt Learning for Image- and Text-Based Person Re-Identification
- Title(参考訳): 画像とテキストに基づく人物再同定のための階層型プロンプト学習
- Authors: Linhan Zhou, Shuang Li, Neng Dong, Yonghang Tai, Yafei Zhang, Huafeng Li,
- Abstract要約: 人物再識別 (ReID) は、視覚的クエリ (image-to-image, I2I) とテキスト記述 (text-to-image, T2I) のいずれかを対象とする歩行者画像の検索を目的とする。
- 参考スコア(独自算出の注目度): 25.3625307168105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification (ReID) aims to retrieve target pedestrian images given either visual queries (image-to-image, I2I) or textual descriptions (text-to-image, T2I). Although both tasks share a common retrieval objective, they pose distinct challenges: I2I emphasizes discriminative identity learning, while T2I requires accurate cross-modal semantic alignment. Existing methods often treat these tasks separately, which may lead to representation entanglement and suboptimal performance. To address this, we propose a unified framework named Hierarchical Prompt Learning (HPL), which leverages task-aware prompt modeling to jointly optimize both tasks. Specifically, we first introduce a Task-Routed Transformer, which incorporates dual classification tokens into a shared visual encoder to route features for I2I and T2I branches respectively. On top of this, we develop a hierarchical prompt generation scheme that integrates identity-level learnable tokens with instance-level pseudo-text tokens. These pseudo-tokens are derived from image or text features via modality-specific inversion networks, injecting fine-grained, instance-specific semantics into the prompts. Furthermore, we propose a Cross-Modal Prompt Regularization strategy to enforce semantic alignment in the prompt token space, ensuring that pseudo-prompts preserve source-modality characteristics while enhancing cross-modal transferability. Extensive experiments on multiple ReID benchmarks validate the effectiveness of our method, achieving state-of-the-art performance on both I2I and T2I tasks.
- Abstract(参考訳): 人物再識別 (ReID) は、視覚的クエリ (image-to-image, I2I) とテキスト的記述 (text-to-image, T2I) のいずれかを対象とする歩行者画像の検索を目的としている。
I2Iは識別的アイデンティティ学習を強調し、T2Iは正確なクロスモーダルなセマンティックアライメントを必要とする。
既存の手法はしばしばこれらのタスクを別々に扱うため、表現の絡み合いや準最適性能につながることがある。
これを解決するために,タスク認識プロンプトモデリングを利用して両タスクを協調的に最適化するHPL(Hierarchical Prompt Learning)という統合フレームワークを提案する。
具体的には、まず2つの分類トークンを共有ビジュアルエンコーダに組み込んで、それぞれI2IとT2Iの分岐をルーティングするTask-Routed Transformerを導入する。
そこで我々は,アイデンティティレベルの学習可能なトークンとインスタンスレベルの擬似テキストトークンを統合する階層的なプロンプト生成手法を開発した。
これらの擬似トークンは、画像やテキストの特徴をモダリティ固有のインバージョンネットワークを通じて引き起こし、細かいインスタンス固有のセマンティクスをプロンプトに注入する。
さらに,プロンプト空間における意味的アライメントを強制するクロスモーダル・プロンプト規則化手法を提案し,クロスモーダル転送性を高めつつ,擬似プロンプトがソースモダリティ特性を維持することを保証する。
複数のReIDベンチマークによる大規模な実験により,本手法の有効性が検証され,I2IタスクおよびT2Iタスクの最先端性能が得られた。
関連論文リスト
- Unified Text-Image Generation with Weakness-Targeted Post-Training [57.956648078400775]
テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。
この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
論文 参考訳(メタデータ) (2026-01-07T19:19:44Z) - Text2Token: Unsupervised Text Representation Learning with Token Target Prediction [33.981873901056765]
教師なしテキスト表現学習(TRL)は、ウェブの未ラベルテキストによる検索とレコメンデーションを改善するのに有用である。
最近の実証的研究により、高品質な表現は入力テキストのキートークンと一致していることがわかった。
TRL, Text2Token のための教師なし生成フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-11T14:00:45Z) - Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval [15.126709823382539]
本研究は、人物表現学習のためのコントラスト言語画像事前学習(CLIP)を推進している。
MLLMのコンテキスト内学習機能を活用した耐雑音性データ構築パイプラインを開発した。
我々はGA-DMSフレームワークを導入し、ノイズの多いテキストトークンを適応的にマスキングすることで、クロスモーダルアライメントを改善する。
論文 参考訳(メタデータ) (2025-09-11T03:06:22Z) - Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition [33.22316608406554]
本稿では,画像エンコーダとテキストエンコーダのパラメータ効率を両立させる手法を提案する。
具体的には,画像エンコーダのタスク固有の適応を設計し,特徴抽出時に最も識別性の高い情報をよく認識できるようにする。
我々は,視覚的特徴を意味的記述と同じ時間的段階に存在するように積極的にマッピングする,革新的な細粒度クロスモーダルアライメント戦略を開発した。
論文 参考訳(メタデータ) (2025-05-09T12:34:10Z) - TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models [19.1659725630146]
トレーニングフリーのテキスト・イメージ・トゥ・イメージ(TF-TI2I)は、追加のトレーニングを必要とせずに最先端のT2Iモデルに適応する。
提案手法は,様々なベンチマークにおいて堅牢な性能を示し,複雑な画像生成タスクの処理の有効性を確認した。
論文 参考訳(メタデータ) (2025-03-19T15:03:19Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - SeCGAN: Parallel Conditional Generative Adversarial Networks for Face
Editing via Semantic Consistency [50.04141606856168]
目的のセマンティックマスクを指定せずにセマンティック情報を利用した顔画像の編集を行うラベル誘導型cGANを提案する。
SeCGANには2つのジェネレータと識別器が並列に動作しており、1つはRGBイメージを変換し、もう1つはセマンティックマスク用に訓練されている。
CelebAとCelebA-HQで得られた結果は、我々のアプローチがより正確な属性を持つ顔画像を生成することができることを示している。
論文 参考訳(メタデータ) (2021-11-17T18:54:58Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。