論文の概要: Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation
- arxiv url: http://arxiv.org/abs/2109.12965v3
- Date: Sun, 25 Feb 2024 10:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:54:23.508409
- Title: Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation
- Title(参考訳): 意味的提案生成による全画像におけるテキストベース人物検索
- Authors: Shizhou Zhang, De Cheng, Wenlong Luo, Yinghui Xing, Duo Long, Hao Li,
Kai Niu, Guoqiang Liang, Yanning Zhang
- Abstract要約: 本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
- 参考スコア(独自算出の注目度): 42.25611020956918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding target persons in full scene images with a query of text description
has important practical applications in intelligent video surveillance.However,
different from the real-world scenarios where the bounding boxes are not
available, existing text-based person retrieval methods mainly focus on the
cross modal matching between the query text descriptions and the gallery of
cropped pedestrian images. To close the gap, we study the problem of text-based
person search in full images by proposing a new end-to-end learning framework
which jointly optimize the pedestrian detection, identification and
visual-semantic feature embedding tasks. To take full advantage of the query
text, the semantic features are leveraged to instruct the Region Proposal
Network to pay more attention to the text-described proposals. Besides, a
cross-scale visual-semantic embedding mechanism is utilized to improve the
performance. To validate the proposed method, we collect and annotate two
large-scale benchmark datasets based on the widely adopted image-based person
search datasets CUHK-SYSU and PRW. Comprehensive experiments are conducted on
the two datasets and compared with the baseline methods, our method achieves
the state-of-the-art performance.
- Abstract(参考訳): テキスト記述のクエリによるフルシーン画像中の対象人物の検索は、インテリジェントなビデオ監視において重要な実用的応用であるが、バウンディングボックスが利用できない現実のシナリオとは違い、既存のテキストベースの人物検索手法は主に、クエリテキスト記述と収穫した歩行者画像のギャラリーとの相互マッチングに焦点を当てている。
このギャップを埋めるために,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化する新しいエンドツーエンド学習フレームワークを提案することによって,全画像におけるテキストベースの人物検索の問題を研究する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
また、クロススケールなビジュアル・セマンティックな埋め込み機構を利用して性能を向上させる。
提案手法を検証するために,広く採用されている画像ベース人物検索データセットCUHK-SYSUとPRWに基づいて,大規模なベンチマークデータセットを2つ収集し,注釈付けする。
2つのデータセット上で総合的な実験を行い,ベースライン法と比較し,最先端の性能を実現する。
関連論文リスト
- You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。