論文の概要: Semi-supervised Text-based Person Search
- arxiv url: http://arxiv.org/abs/2404.18106v1
- Date: Sun, 28 Apr 2024 07:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 17:53:05.957287
- Title: Semi-supervised Text-based Person Search
- Title(参考訳): 半教師付きテキストベース人物探索
- Authors: Daming Gao, Yang Bai, Min Cao, Hao Dou, Mang Ye, Min Zhang,
- Abstract要約: 既存の手法は、完全教師付き学習において十分な性能を達成するために、大量の注釈付き画像テキストデータに依存している。
本稿では,半教師付きTBPSの世代別検索に基づく2段階基本解を提案する。
本稿では,ノイズの多いデータを扱うための検索モデルの能力を高めるためのノイズロバスト検索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.14739994781334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person search (TBPS) aims to retrieve images of a specific person from a large image gallery based on a natural language description. Existing methods rely on massive annotated image-text data to achieve satisfactory performance in fully-supervised learning. It poses a significant challenge in practice, as acquiring person images from surveillance videos is relatively easy, while obtaining annotated texts is challenging. The paper undertakes a pioneering initiative to explore TBPS under the semi-supervised setting, where only a limited number of person images are annotated with textual descriptions while the majority of images lack annotations. We present a two-stage basic solution based on generation-then-retrieval for semi-supervised TBPS. The generation stage enriches annotated data by applying an image captioning model to generate pseudo-texts for unannotated images. Later, the retrieval stage performs fully-supervised retrieval learning using the augmented data. Significantly, considering the noise interference of the pseudo-texts on retrieval learning, we propose a noise-robust retrieval framework that enhances the ability of the retrieval model to handle noisy data. The framework integrates two key strategies: Hybrid Patch-Channel Masking (PC-Mask) to refine the model architecture, and Noise-Guided Progressive Training (NP-Train) to enhance the training process. PC-Mask performs masking on the input data at both the patch-level and the channel-level to prevent overfitting noisy supervision. NP-Train introduces a progressive training schedule based on the noise level of pseudo-texts to facilitate noise-robust learning. Extensive experiments on multiple TBPS benchmarks show that the proposed framework achieves promising performance under the semi-supervised setting.
- Abstract(参考訳): テキストベースの人物検索(TBPS)は、自然言語による記述に基づいて、大きな画像ギャラリーから特定の人物の画像を取得することを目的としている。
既存の手法は、完全教師付き学習において十分な性能を達成するために、大量の注釈付き画像テキストデータに依存している。
監視ビデオからの人物画像の取得は比較的容易であり、注釈付きテキストの取得は困難である。
この論文は、TBPSを半教師付きで探索する先駆的な取り組みを行ない、限られた数の人物画像に注釈が付され、大部分の画像にはアノテーションが欠落している。
本稿では,半教師付きTBPSの世代別検索に基づく2段階基本解を提案する。
生成段階は、画像キャプションモデルを適用して注釈なし画像の擬似テキストを生成することにより、注釈付きデータを強化する。
その後、この拡張データを用いた完全教師付き検索学習を行う。
検索学習における擬似テキストのノイズ干渉を考慮し,検索モデルによるノイズデータ処理能力の向上を目的としたノイズロバスト検索フレームワークを提案する。
このフレームワークは、モデルアーキテクチャを洗練するためのハイブリッドパッチチャネルマスキング(PC-Mask)と、トレーニングプロセスを強化するためのノイズガイドプログレッシブトレーニング(NP-Train)の2つの主要な戦略を統合している。
PC-Maskは、パッチレベルとチャネルレベルの両方で入力データに対してマスキングを行い、ノイズの過度な監視を防止する。
NP-Trainは、擬似テキストのノイズレベルに基づいたプログレッシブトレーニングスケジュールを導入し、ノイズロバスト学習を容易にする。
複数のTBPSベンチマークにおいて,提案手法が半教師付き環境下で有望な性能を達成することを示す。
関連論文リスト
- Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Generalization algorithm of multimodal pre-training model based on
graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文 参考訳(メタデータ) (2023-02-16T03:34:08Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。