論文の概要: Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID
- arxiv url: http://arxiv.org/abs/2405.04940v2
- Date: Fri, 28 Jun 2024 01:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:15:15.133866
- Title: Harnessing the Power of MLLMs for Transferable Text-to-Image Person ReID
- Title(参考訳): トランスファー可能なテキスト・ツー・イメージ・パーソン・リIDのためのMLLMのパワーの調和
- Authors: Wentao Tan,
- Abstract要約: 本稿では,提案する大規模データベース上でモデルをトレーニングするReID問題について検討する。
MLLM(Multi-modal Large Language Models)による訓練データを得る。
画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.178454425594117
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image person re-identification (ReID) retrieves pedestrian images according to textual descriptions. Manually annotating textual descriptions is time-consuming, restricting the scale of existing datasets and therefore the generalization ability of ReID models. As a result, we study the transferable text-to-image ReID problem, where we train a model on our proposed large-scale database and directly deploy it to various datasets for evaluation. We obtain substantial training data via Multi-modal Large Language Models (MLLMs). Moreover, we identify and address two key challenges in utilizing the obtained textual descriptions. First, an MLLM tends to generate descriptions with similar structures, causing the model to overfit specific sentence patterns. Thus, we propose a novel method that uses MLLMs to caption images according to various templates. These templates are obtained using a multi-turn dialogue with a Large Language Model (LLM). Therefore, we can build a large-scale dataset with diverse textual descriptions. Second, an MLLM may produce incorrect descriptions. Hence, we introduce a novel method that automatically identifies words in a description that do not correspond with the image. This method is based on the similarity between one text and all patch token embeddings in the image. Then, we mask these words with a larger probability in the subsequent training epoch, alleviating the impact of noisy textual descriptions. The experimental results demonstrate that our methods significantly boost the direct transfer text-to-image ReID performance. Benefiting from the pre-trained model weights, we also achieve state-of-the-art performance in the traditional evaluation settings.
- Abstract(参考訳): ReID(text-to-image person re-identification)は、テキスト記述に従って歩行者画像を取得する。
手作業によるテキスト記述の注釈付けには時間がかかり、既存のデータセットのスケールやReIDモデルの一般化能力が制限される。
そこで我々は,提案した大規模データベース上でモデルをトレーニングし,それを様々なデータセットに直接展開して評価を行う。
MLLM(Multi-modal Large Language Models)を用いて,大規模な学習データを得る。
さらに、得られたテキスト記述を利用する上での2つの重要な課題を特定し、対処する。
第一に、MLLMは類似した構造を持つ記述を生成する傾向があるため、モデルは特定の文パターンに過度に適合する。
そこで本稿では,MLLMを用いてテンプレートに応じて画像をキャプションする手法を提案する。
これらのテンプレートは,Large Language Model (LLM) を用いたマルチターン対話を用いて得られる。
したがって、多種多様なテキスト記述を持つ大規模データセットを構築することができる。
第2に、MLLMは誤った記述を生成できる。
そこで本稿では,画像に対応しない記述中の単語を自動的に識別する新しい手法を提案する。
この方法は、1つのテキストとすべてのパッチトークンのイメージへの埋め込みの類似性に基づいている。
そして、これらの単語を、その後の訓練の時期においてより大きな確率で隠蔽し、ノイズの多い文章記述の影響を緩和する。
実験の結果,本手法は直接転送によるReID性能を大幅に向上させることが示された。
事前訓練されたモデル重みから得られる利点は、従来の評価設定において最先端のパフォーマンスを達成することである。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - SwitchGPT: Adapting Large Language Models for Non-Text Outputs [28.656227306028743]
大規模言語モデル(LLM)は主にテキストベースのデータセットに基づいて訓練されている。
LLMは、テキスト出力による複雑な言語命令の理解と実行において、非常に優れた能力を示す。
テキストベースのLLMをマルチモーダルに進化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T11:38:23Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。