論文の概要: TIPCB: A Simple but Effective Part-based Convolutional Baseline for
Text-based Person Search
- arxiv url: http://arxiv.org/abs/2105.11628v1
- Date: Tue, 25 May 2021 03:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:09:21.514026
- Title: TIPCB: A Simple but Effective Part-based Convolutional Baseline for
Text-based Person Search
- Title(参考訳): TIPCB:テキストベースの人物検索のためのシンプルだが効果的な部分ベースの畳み込みベースライン
- Authors: Yuhao Chen, Guoqing Zhang, Yujiang Lu, Zhenxing Wang, Yuhui Zheng,
Ruili Wang
- Abstract要約: TIPCBというテキストベースの人物検索のための,シンプルだが効果的なエンドツーエンド学習フレームワークを提案する。
まず、視覚的およびテキスト的局所表現を抽出するために、新しいデュアルパス局所アライメントネットワーク構造を提案する。
次に,3つの特徴レベルからモダリティギャップを除去する多段階のクロスモーダルマッチング戦略を提案する。
本手法は,Top-1,Top-5,Top-10の3.69%,2.95%,2.31%,最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 18.68733575948676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person search is a sub-task in the field of image retrieval, which
aims to retrieve target person images according to a given textual description.
The significant feature gap between two modalities makes this task very
challenging. Many existing methods attempt to utilize local alignment to
address this problem in the fine-grained level. However, most relevant methods
introduce additional models or complicated training and evaluation strategies,
which are hard to use in realistic scenarios. In order to facilitate the
practical application, we propose a simple but effective end-to-end learning
framework for text-based person search named TIPCB (i.e., Text-Image Part-based
Convolutional Baseline). Firstly, a novel dual-path local alignment network
structure is proposed to extract visual and textual local representations, in
which images are segmented horizontally and texts are aligned adaptively. Then,
we propose a multi-stage cross-modal matching strategy, which eliminates the
modality gap from three feature levels, including low level, local level and
global level. Extensive experiments are conducted on the widely-used benchmark
dataset (CUHK-PEDES) and verify that our method outperforms the
state-of-the-art methods by 3.69%, 2.95% and 2.31% in terms of Top-1, Top-5 and
Top-10. Our code has been released in https://github.com/OrangeYHChen/TIPCB.
- Abstract(参考訳): テキストベースの人物検索は画像検索の分野におけるサブタスクであり、与えられたテキスト記述に従って対象人物画像を取得することを目的としている。
2つのモード間の重要な特徴ギャップは、このタスクを非常に困難にします。
多くの既存の手法では、局所的なアライメントを利用してこの問題をきめ細かいレベルで解決しようとする。
しかし、最も関連する手法は、現実的なシナリオでは利用が難しい追加モデルや複雑なトレーニング、評価戦略を導入している。
そこで本研究では,TIPCB(Text-Image Part-based Convolutional Baseline)というテキストベースの人物検索のための,シンプルで効果的なエンドツーエンド学習フレームワークを提案する。
まず,画像が水平に分割され,テキストが適応的にアライメントされる視覚およびテキストの局所表現を抽出するために,新しいデュアルパス局所アライメントネットワーク構造を提案する。
そこで我々は,低レベル,局所レベル,グローバルレベルを含む3つの特徴レベルからモダリティギャップを除去する多段階のクロスモーダルマッチング戦略を提案する。
広範に使用されているベンチマークデータセット(CUHK-PEDES)を用いて,本手法がTop-1,Top-5,Top-10の3.69%,2.95%,2.31%の精度で評価した。
私たちのコードはhttps://github.com/OrangeYHChen/TIPCB.comで公開されています。
関連論文リスト
- mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。
マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。
この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-28T04:47:44Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。