論文の概要: Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification
- arxiv url: http://arxiv.org/abs/2503.09962v1
- Date: Thu, 13 Mar 2025 02:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:11.178374
- Title: Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification
- Title(参考訳): 一般化可能なテキスト・画像人物再識別のための数千の人間アノテーションのモデリング
- Authors: Jiayu Jiang, Changxing Ding, Wentao Tan, Junhong Wang, Jin Tao, Xiangmin Xu,
- Abstract要約: そこで本研究では,MLLMが何千ものアノテータの記述スタイルを模倣できるように,Human Annotator Modeling (HAM)アプローチを提案する。
Hamは、類似したスタイルのテキスト記述を同じクラスタにグループ化し、素早い学習を適用して、異なるアノテータの記述スタイルを模倣することを可能にする。
HamはReIDモデルの一般化能力を大幅に改善する。
- 参考スコア(独自算出の注目度): 20.748856943104375
- License:
- Abstract: Text-to-image person re-identification (ReID) aims to retrieve the images of an interested person based on textual descriptions. One main challenge for this task is the high cost in manually annotating large-scale databases, which affects the generalization ability of ReID models. Recent works handle this problem by leveraging Multi-modal Large Language Models (MLLMs) to describe pedestrian images automatically. However, the captions produced by MLLMs lack diversity in description styles. To address this issue, we propose a Human Annotator Modeling (HAM) approach to enable MLLMs to mimic the description styles of thousands of human annotators. Specifically, we first extract style features from human textual descriptions and perform clustering on them. This allows us to group textual descriptions with similar styles into the same cluster. Then, we employ a prompt to represent each of these clusters and apply prompt learning to mimic the description styles of different human annotators. Furthermore, we define a style feature space and perform uniform sampling in this space to obtain more diverse clustering prototypes, which further enriches the diversity of the MLLM-generated captions. Finally, we adopt HAM to automatically annotate a massive-scale database for text-to-image ReID. Extensive experiments on this database demonstrate that it significantly improves the generalization ability of ReID models.
- Abstract(参考訳): ReID(text-to-image person re-identification)は、興味ある人物の画像をテキスト記述に基づいて検索することを目的としている。
このタスクの主な課題の1つは、ReIDモデルの一般化能力に影響を与える大規模なデータベースを手動でアノテートする際の高コストである。
近年の課題は、歩行者画像の自動記述にMLLM(Multi-modal Large Language Models)を活用することで解決されている。
しかし、MLLMのキャプションは記述スタイルの多様性に欠けていた。
この問題に対処するために,MLLM が何千もの人間のアノテーションの記述スタイルを模倣できるように,Human Annotator Modeling (HAM) アプローチを提案する。
具体的には、まず、人間のテキスト記述からスタイルの特徴を抽出し、それらに基づいてクラスタリングを行う。
これにより、同様のスタイルのテキスト記述を同じクラスタにグループ化できます。
次に、これらのクラスタをそれぞれ表現するためのプロンプトを用いて、異なる人間のアノテータの記述スタイルを模倣するプロンプト学習を適用する。
さらに、スタイルの特徴空間を定義し、この空間で一様サンプリングを行い、より多様なクラスタリングプロトタイプを得ることにより、MLLM生成キャプションの多様性をさらに強化する。
最後に,テキストから画像へのReIDのための大規模データベースを自動的に注釈付けするために,HAMを採用している。
このデータベース上での大規模な実験により、ReIDモデルの一般化能力が大幅に向上することを示した。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID [44.372336186832584]
本稿では,提案する大規模データベース上でモデルをトレーニングするReID問題について検討する。
MLLM(Multi-modal Large Language Models)による訓練データを得る。
画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T10:15:04Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - Generating Illustrated Instructions [41.613203340244155]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。
大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:20Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。