論文の概要: Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search
- arxiv url: http://arxiv.org/abs/2303.04497v1
- Date: Wed, 8 Mar 2023 10:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:22:44.183101
- Title: Exploiting the Textual Potential from Vision-Language Pre-training for
Text-based Person Search
- Title(参考訳): テキストに基づく人物検索のための視覚言語事前学習からのテキストポテンシャルの爆発
- Authors: Guanshuo Wang, Fufu Yu, Junjie Li, Qiong Jia, Shouhong Ding
- Abstract要約: テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
最近のビジョンランゲージ事前学習モデルは、下流のTPSタスクに伝達可能な知識をもたらすことができ、より効率的なパフォーマンス向上をもたらす。
しかし、既存のTPS手法では、学習済みのビジュアルエンコーダのみを使用し、対応するテキスト表現を無視している。
- 参考スコア(独自算出の注目度): 17.360982091304137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based Person Search (TPS), is targeted on retrieving pedestrians to
match text descriptions instead of query images. Recent Vision-Language
Pre-training (VLP) models can bring transferable knowledge to downstream TPS
tasks, resulting in more efficient performance gains. However, existing TPS
methods improved by VLP only utilize pre-trained visual encoders, neglecting
the corresponding textual representation and breaking the significant modality
alignment learned from large-scale pre-training. In this paper, we explore the
full utilization of textual potential from VLP in TPS tasks. We build on the
proposed VLP-TPS baseline model, which is the first TPS model with both
pre-trained modalities. We propose the Multi-Integrity Description Constraints
(MIDC) to enhance the robustness of the textual modality by incorporating
different components of fine-grained corpus during training. Inspired by the
prompt approach for zero-shot classification with VLP models, we propose the
Dynamic Attribute Prompt (DAP) to provide a unified corpus of fine-grained
attributes as language hints for the image modality. Extensive experiments show
that our proposed TPS framework achieves state-of-the-art performance,
exceeding the previous best method by a margin.
- Abstract(参考訳): テキストベースPerson Search(TPS)は、歩行者を検索画像の代わりにテキスト記述にマッチさせることを目的としている。
近年のVision-Language Pre-Training(VLP)モデルは、下流のTPSタスクに伝達可能な知識をもたらし、より効率的なパフォーマンス向上をもたらす。
しかしながら、VLPにより改善された既存のTPS法は、事前学習された視覚エンコーダのみを使用し、対応するテキスト表現を無視し、大規模な事前学習から得られた重要なモダリティアライメントを破る。
本稿では,TPSタスクにおけるVLPからのテキストポテンシャルのフル活用について検討する。
提案するvlp-tpsベースラインモデルに基づいて,事前学習した2つのモードを持つ最初のtpsモデルを構築した。
トレーニング中に細粒度コーパスの異なる成分を組み込むことにより、テキストモダリティの堅牢性を高めるために、MIDC(Multi-Integrity Description Constraints)を提案する。
VLPモデルを用いたゼロショット分類の迅速なアプローチに着想を得て,動的属性の統一コーパスを画像モダリティの言語ヒントとして提供するための動的属性プロンプト(DAP)を提案する。
実験の結果,提案するTPSフレームワークは,従来の最良手法のマージンを超え,最先端性能を実現していることがわかった。
関連論文リスト
- Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training [27.103514548337404]
視覚言語事前学習への既存のアプローチは、境界ボックス(領域)に基づく物体検出器に依存している
本稿では,視覚言語事前学習のためのグリッドベースの畳み込み機能を再検討し,高価な地域関連ステップをスキップする。
論文 参考訳(メタデータ) (2021-08-21T09:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。