論文の概要: Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification
- arxiv url: http://arxiv.org/abs/2312.16797v1
- Date: Thu, 28 Dec 2023 03:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 17:46:01.154987
- Title: Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification
- Title(参考訳): 属性に基づく人物再同定のためのクロスモーダルアライメントを用いたマルチプロンプト学習
- Authors: Yajing Zhai, Yawen Zeng, Zhiyong Huang, Zheng Qin, Xin Jin, Da Cao
- Abstract要約: 本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
- 参考スコア(独自算出の注目度): 18.01407937934588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fine-grained attribute descriptions can significantly supplement the
valuable semantic information for person image, which is vital to the success
of person re-identification (ReID) task. However, current ReID algorithms
typically failed to effectively leverage the rich contextual information
available, primarily due to their reliance on simplistic and coarse utilization
of image attributes. Recent advances in artificial intelligence generated
content have made it possible to automatically generate plentiful fine-grained
attribute descriptions and make full use of them. Thereby, this paper explores
the potential of using the generated multiple person attributes as prompts in
ReID tasks with off-the-shelf (large) models for more accurate retrieval
results. To this end, we present a new framework called Multi-Prompts ReID
(MP-ReID), based on prompt learning and language models, to fully dip fine
attributes to assist ReID task. Specifically, MP-ReID first learns to
hallucinate diverse, informative, and promptable sentences for describing the
query images. This procedure includes (i) explicit prompts of which attributes
a person has and furthermore (ii) implicit learnable prompts for
adjusting/conditioning the criteria used towards this person identity matching.
Explicit prompts are obtained by ensembling generation models, such as ChatGPT
and VQA models. Moreover, an alignment module is designed to fuse multi-prompts
(i.e., explicit and implicit ones) progressively and mitigate the cross-modal
gap. Extensive experiments on the existing attribute-involved ReID datasets,
namely, Market1501 and DukeMTMC-reID, demonstrate the effectiveness and
rationality of the proposed MP-ReID solution.
- Abstract(参考訳): 微粒な属性記述は、人物の再識別(ReID)タスクの成功に不可欠である、人物画像の貴重な意味情報を著しく補うことができる。
しかし、現在のreidアルゴリズムは、画像属性の単純化と粗い利用に依存するため、利用可能なリッチなコンテキスト情報を有効に活用できなかった。
人工知能が生成するコンテンツの最近の進歩により、詳細な属性記述を自動的に生成し、それらをフル活用できるようになった。
そこで本研究では,ReIDタスクにおいて生成した複数の属性をオフザシェルフ(大規模)モデルによるプロンプトとして用いる可能性について検討する。
そこで本研究では,mp-reid(multi-prompts reid)と呼ばれるプロンプト学習と言語モデルに基づく新しいフレームワークを提案する。
具体的には、MP-ReIDはまず、クエリイメージを記述するために、多様な、情報的、即応的な文を幻覚することを学ぶ。
この手順には
(i)ある者が有する属性の明示的なプロンプト
二 この人物同一性マッチングの基準を調整・調整するための暗黙的に学習可能なプロンプト
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
さらに、アライメントモジュールは、マルチプロンプト(すなわち、明示的および暗黙的)を段階的に融合させ、クロスモーダルギャップを緩和するように設計されている。
既存の属性を含むReIDデータセット、すなわちMarket1501とDukeMTMC-reIDに関する大規模な実験は、提案したMP-ReIDソリューションの有効性と合理性を示している。
関連論文リスト
- Enhancing Visible-Infrared Person Re-identification with Modality- and Instance-aware Visual Prompt Learning [29.19130646630545]
MIP(Modality-aware and Instance-aware Visual Prompts)ネットワークについて紹介する。
MIPは、不変情報と特定情報の両方を効果的に利用して識別するように設計されている。
提案するMIPは,ほとんどの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-18T06:39:03Z) - Generative Cross-Modal Retrieval: Memorizing Images in Multimodal
Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。
MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-16T16:31:46Z) - Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis [6.215536001787723]
意味的詳細が不十分な不正確なプロンプトによる幻覚と不信な合成は、マルチモーダル生成モデルで広く観察されている。
我々は、外部知識を反復的に組み込んだゼロショットフレームワークであるKPP(Knowledge Pursuit Prompting)を提案する。
KPPは多様な視覚領域にまたがって忠実でセマンティックにリッチなコンテンツを生成することができ、マルチモーダル生成モデルを改善するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-11-29T18:51:46Z) - ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation [13.338363107777438]
コンテンツと構造の両方の健全な特徴を高めるために,ID埋め込みを取り入れた新しいレコメンデーションモデルを提案する。
提案手法は,最先端のマルチモーダルレコメンデーション手法や細粒度ID埋め込みの有効性に優れる。
論文 参考訳(メタデータ) (2023-11-10T09:41:28Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。