論文の概要: Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification
- arxiv url: http://arxiv.org/abs/2312.16797v1
- Date: Thu, 28 Dec 2023 03:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 17:46:01.154987
- Title: Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification
- Title(参考訳): 属性に基づく人物再同定のためのクロスモーダルアライメントを用いたマルチプロンプト学習
- Authors: Yajing Zhai, Yawen Zeng, Zhiyong Huang, Zheng Qin, Xin Jin, Da Cao
- Abstract要約: 本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
- 参考スコア(独自算出の注目度): 18.01407937934588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fine-grained attribute descriptions can significantly supplement the
valuable semantic information for person image, which is vital to the success
of person re-identification (ReID) task. However, current ReID algorithms
typically failed to effectively leverage the rich contextual information
available, primarily due to their reliance on simplistic and coarse utilization
of image attributes. Recent advances in artificial intelligence generated
content have made it possible to automatically generate plentiful fine-grained
attribute descriptions and make full use of them. Thereby, this paper explores
the potential of using the generated multiple person attributes as prompts in
ReID tasks with off-the-shelf (large) models for more accurate retrieval
results. To this end, we present a new framework called Multi-Prompts ReID
(MP-ReID), based on prompt learning and language models, to fully dip fine
attributes to assist ReID task. Specifically, MP-ReID first learns to
hallucinate diverse, informative, and promptable sentences for describing the
query images. This procedure includes (i) explicit prompts of which attributes
a person has and furthermore (ii) implicit learnable prompts for
adjusting/conditioning the criteria used towards this person identity matching.
Explicit prompts are obtained by ensembling generation models, such as ChatGPT
and VQA models. Moreover, an alignment module is designed to fuse multi-prompts
(i.e., explicit and implicit ones) progressively and mitigate the cross-modal
gap. Extensive experiments on the existing attribute-involved ReID datasets,
namely, Market1501 and DukeMTMC-reID, demonstrate the effectiveness and
rationality of the proposed MP-ReID solution.
- Abstract(参考訳): 微粒な属性記述は、人物の再識別(ReID)タスクの成功に不可欠である、人物画像の貴重な意味情報を著しく補うことができる。
しかし、現在のreidアルゴリズムは、画像属性の単純化と粗い利用に依存するため、利用可能なリッチなコンテキスト情報を有効に活用できなかった。
人工知能が生成するコンテンツの最近の進歩により、詳細な属性記述を自動的に生成し、それらをフル活用できるようになった。
そこで本研究では,ReIDタスクにおいて生成した複数の属性をオフザシェルフ(大規模)モデルによるプロンプトとして用いる可能性について検討する。
そこで本研究では,mp-reid(multi-prompts reid)と呼ばれるプロンプト学習と言語モデルに基づく新しいフレームワークを提案する。
具体的には、MP-ReIDはまず、クエリイメージを記述するために、多様な、情報的、即応的な文を幻覚することを学ぶ。
この手順には
(i)ある者が有する属性の明示的なプロンプト
二 この人物同一性マッチングの基準を調整・調整するための暗黙的に学習可能なプロンプト
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
さらに、アライメントモジュールは、マルチプロンプト(すなわち、明示的および暗黙的)を段階的に融合させ、クロスモーダルギャップを緩和するように設計されている。
既存の属性を含むReIDデータセット、すなわちMarket1501とDukeMTMC-reIDに関する大規模な実験は、提案したMP-ReIDソリューションの有効性と合理性を示している。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Attribute-Text Guided Forgetting Compensation for Lifelong Person Re-Identification [8.841311088024584]
LReID(Lifelong person re-identification)は、静止しないデータから継続的に学習し、異なる環境の個人をマッチングすることを目的としている。
現在のLReID手法は、タスク固有の知識に焦点をあて、ドメインギャップ内の固有のタスク共有表現を無視している。
本稿では,テキスト駆動型グローバル表現と属性関連ローカル表現を探索する,新しい属性テキストガイド型忘れ補償モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:19:09Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Enhancing Visible-Infrared Person Re-identification with Modality- and Instance-aware Visual Prompt Learning [29.19130646630545]
MIP(Modality-aware and Instance-aware Visual Prompts)ネットワークについて紹介する。
MIPは、不変情報と特定情報の両方を効果的に利用して識別するように設計されている。
提案するMIPは,ほとんどの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-18T06:39:03Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。