Fugu-MT 論文翻訳(概要): Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification

論文の概要: Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification

arxiv url: http://arxiv.org/abs/2312.16797v1
Date: Thu, 28 Dec 2023 03:00:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 17:46:01.154987
Title: Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification
Title（参考訳）: 属性に基づく人物再同定のためのクロスモーダルアライメントを用いたマルチプロンプト学習
Authors: Yajing Zhai, Yawen Zeng, Zhiyong Huang, Zheng Qin, Xin Jin, Da Cao
Abstract要約: 本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。 MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
参考スコア（独自算出の注目度）: 18.01407937934588
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The fine-grained attribute descriptions can significantly supplement the valuable semantic information for person image, which is vital to the success of person re-identification (ReID) task. However, current ReID algorithms typically failed to effectively leverage the rich contextual information available, primarily due to their reliance on simplistic and coarse utilization of image attributes. Recent advances in artificial intelligence generated content have made it possible to automatically generate plentiful fine-grained attribute descriptions and make full use of them. Thereby, this paper explores the potential of using the generated multiple person attributes as prompts in ReID tasks with off-the-shelf (large) models for more accurate retrieval results. To this end, we present a new framework called Multi-Prompts ReID (MP-ReID), based on prompt learning and language models, to fully dip fine attributes to assist ReID task. Specifically, MP-ReID first learns to hallucinate diverse, informative, and promptable sentences for describing the query images. This procedure includes (i) explicit prompts of which attributes a person has and furthermore (ii) implicit learnable prompts for adjusting/conditioning the criteria used towards this person identity matching. Explicit prompts are obtained by ensembling generation models, such as ChatGPT and VQA models. Moreover, an alignment module is designed to fuse multi-prompts (i.e., explicit and implicit ones) progressively and mitigate the cross-modal gap. Extensive experiments on the existing attribute-involved ReID datasets, namely, Market1501 and DukeMTMC-reID, demonstrate the effectiveness and rationality of the proposed MP-ReID solution.
Abstract（参考訳）: 微粒な属性記述は、人物の再識別(ReID)タスクの成功に不可欠である、人物画像の貴重な意味情報を著しく補うことができる。しかし、現在のreidアルゴリズムは、画像属性の単純化と粗い利用に依存するため、利用可能なリッチなコンテキスト情報を有効に活用できなかった。人工知能が生成するコンテンツの最近の進歩により、詳細な属性記述を自動的に生成し、それらをフル活用できるようになった。そこで本研究では,ReIDタスクにおいて生成した複数の属性をオフザシェルフ(大規模)モデルによるプロンプトとして用いる可能性について検討する。そこで本研究では,mp-reid(multi-prompts reid)と呼ばれるプロンプト学習と言語モデルに基づく新しいフレームワークを提案する。具体的には、MP-ReIDはまず、クエリイメージを記述するために、多様な、情報的、即応的な文を幻覚することを学ぶ。この手順には (i)ある者が有する属性の明示的なプロンプト二この人物同一性マッチングの基準を調整・調整するための暗黙的に学習可能なプロンプト明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。さらに、アライメントモジュールは、マルチプロンプト(すなわち、明示的および暗黙的)を段階的に融合させ、クロスモーダルギャップを緩和するように設計されている。既存の属性を含むReIDデータセット、すなわちMarket1501とDukeMTMC-reIDに関する大規模な実験は、提案したMP-ReIDソリューションの有効性と合理性を示している。

関連論文リスト

Attribute Guidance With Inherent Pseudo-label For Occluded Person Re-identification [16.586742421279137]
Attribute-Guide ReID(AG-ReID)は、追加のデータやアノテーションなしで詳細なセマンティック属性を抽出する新しいフレームワークである。まず、微妙な視覚的特徴を捉えた属性の擬似ラベルを生成し、次に二重誘導機構を導入する。大規模な実験により、AG-ReIDは複数の広く使用されているRe-IDデータセットで最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2025-08-07T03:13:24Z)
TextTIGER: Text-based Intelligent Generation with Entity Prompt Refinement for Text-to-Image Generation [37.212823625296885]
我々は,エンティティ・プロンプト・リファインメント(TextTIGER)を用いたテキストベースのインテリジェント・ジェネレーションを提案する。 TextTIGERは、プロンプトに含まれるエンティティに関する知識を増強し、Large Language Models (LLMs)を使用して拡張記述を要約する。実験によると、TextTIGERはキャプションのみのプロンプトと比較して、標準メトリクス(IS、FID、CLIPScore)における画像生成性能を改善する。
論文参考訳（メタデータ） (2025-04-25T11:27:44Z)
LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文参考訳（メタデータ） (2025-03-31T04:47:05Z)
ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文参考訳（メタデータ） (2025-02-27T10:34:14Z)
Uni-Retrieval: A Multi-Style Retrieval Framework for STEM's Education [30.071212702797016]
AIに精通した授業では、さまざまなクエリスタイルを活用して、抽象的なテキスト記述を解釈することが、高品質な教育の確保に不可欠である。本稿では,複数のクエリスタイルと表現に基づく検索を支援する,教育シナリオに適した多様な表現検索タスクを提案する。本稿では,異なるスタイルの24,000以上のクエリペアを含むSTEM Education Retrievalデータセットと,プロンプトチューニングに基づく効率的かつ多様な検索ビジョン言語モデルであるUni-Retrievalを紹介する。
論文参考訳（メタデータ） (2025-02-09T11:46:05Z)
Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation [26.737971605928358]
我々はMOTORというIDのないマルチモーダルトークン表現方式を提案する。まず、各項目のマルチモーダル特徴を離散トークンIDに識別するために、製品量子化を用いる。次に、これらのトークンIDに対応するトークン埋め込みを暗黙のアイテム機能として解釈する。結果として得られた表現は、元のID埋め込みを置き換え、元のマルチモーダルレコメンデータをIDフリーシステムに変換することができる。
論文参考訳（メタデータ） (2024-10-25T03:06:10Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
ASI++: Towards Distributionally Balanced End-to-End Generative Retrieval [29.65717446547002]
ASI++は、新しいエンドツーエンドの生成検索手法である。バランスの取れたIDの割り当てを同時に学習し、検索性能を向上させることを目的としている。
論文参考訳（メタデータ） (2024-05-23T07:54:57Z)
Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond [99.73306923465424]
画像表現にユニークな識別子文字列を割り当てる生成的クロスモーダル検索フレームワークを提案する。 MLLMのイメージを記憶することで,従来の差別的アプローチとは異なる,クロスモーダル検索の新しいパラダイムを導入する。
論文参考訳（メタデータ） (2024-02-16T16:31:46Z)
Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。 FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2023-08-21T12:59:48Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。 MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。 MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文参考訳（メタデータ） (2023-01-02T05:17:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。