論文の概要: Text-Based Person Search with Limited Data
- arxiv url: http://arxiv.org/abs/2110.10807v1
- Date: Wed, 20 Oct 2021 22:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 12:11:47.831018
- Title: Text-Based Person Search with Limited Data
- Title(参考訳): 限定データを用いたテキスト型人物検索
- Authors: Xiao Han, Sen He, Li Zhang, Tao Xiang
- Abstract要約: テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.26504077270356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based person search (TBPS) aims at retrieving a target person from an
image gallery with a descriptive text query. Solving such a fine-grained
cross-modal retrieval task is challenging, which is further hampered by the
lack of large-scale datasets. In this paper, we present a framework with two
novel components to handle the problems brought by limited data. Firstly, to
fully utilize the existing small-scale benchmarking datasets for more
discriminative feature learning, we introduce a cross-modal momentum
contrastive learning framework to enrich the training data for a given
mini-batch. Secondly, we propose to transfer knowledge learned from existing
coarse-grained large-scale datasets containing image-text pairs from
drastically different problem domains to compensate for the lack of TBPS
training data. A transfer learning method is designed so that useful
information can be transferred despite the large domain gap. Armed with these
components, our method achieves new state of the art on the CUHK-PEDES dataset
with significant improvements over the prior art in terms of Rank-1 and mAP.
Our code is available at https://github.com/BrandonHanx/TextReID.
- Abstract(参考訳): テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
このようなきめ細かいクロスモーダル検索タスクの解決は困難であり、大規模なデータセットの欠如によりさらに妨げられる。
本稿では,制限データによる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
まず、既存の小規模ベンチマークデータセットを、より識別的な特徴学習に活用するために、与えられたミニバッチのトレーニングデータを豊かにするクロスモーダルモメンタムコントラスト学習フレームワークを提案する。
第2に,TBPSトレーニングデータの欠如を補うために,画像テキストペアを含む既存の粗大な大規模データセットから学習した知識の伝達を提案する。
ドメインギャップが大きいにもかかわらず有用な情報を伝達できるように転写学習法を設計する。
これらのコンポーネントを組み込んだ本手法は,rank-1 と map に関して,先行技術よりも大幅に改良された cuhk-pedes データセットの新たな最先端技術を実現する。
私たちのコードはhttps://github.com/BrandonHanx/TextReIDで利用可能です。
関連論文リスト
- Text-Enhanced Data-free Approach for Federated Class-Incremental Learning [36.70524853012054]
データ自由な知識伝達は、忘れることとデータのプライバシー問題に対処する上で重要な役割を果たす。
従来のアプローチでは、DFKTとモデルトレーニングフェーズの間に重要なシナジーが欠如していた。
事前訓練された言語モデルによって生成されたラベルテキストの埋め込みを利用して,この問題に対処するためにLANDERを導入する。
論文 参考訳(メタデータ) (2024-03-21T03:24:01Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Multimodal Prototypical Networks for Few-shot Learning [20.100480009813953]
クロスモーダルな機能生成フレームワークは、数ショットのシナリオにおいて、人口密度の低い埋め込みスペースを強化するために使用される。
このような場合、近隣の分類は実現可能なアプローチであり、最先端のシングルモーダルおよびマルチモーダルの複数ショット学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-17T19:32:59Z) - Data-Efficient Ranking Distillation for Image Retrieval [15.88955427198763]
近年のアプローチでは、より深く重いアーキテクチャからより小さなネットワークへ知識を伝達するために、知識蒸留を用いてこの問題に対処している。
本稿では,計量学習問題に対する知識蒸留について述べる。
従来の手法とは違って,提案手法では,教師モデルに対する限定的なクエリ,最終出力表現へのアクセスを伴うブラックボックス教師モデル,および第3に,基本トラストラベルのないオリジナルトレーニングデータのごく一部に対処する。
論文 参考訳(メタデータ) (2020-07-10T10:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。