論文の概要: Prototype-Guided Text-based Person Search based on Rich Chinese
Descriptions
- arxiv url: http://arxiv.org/abs/2312.14834v1
- Date: Fri, 22 Dec 2023 17:08:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 14:17:15.633152
- Title: Prototype-Guided Text-based Person Search based on Rich Chinese
Descriptions
- Title(参考訳): リッチ中国語記述に基づくプロトタイプガイドによる人物検索
- Authors: Ziqiang Wu, Bingpeng Ma
- Abstract要約: 本稿では,広く使用されている人物検索データセットPRWに基づいて,PRW-TPS-CNという大規模ベンチマークデータセットを提案する。
私たちのデータセットには47,102の文が含まれています。
個人検出とテキストに基づく人物検索の不整合を軽減するために,PRW-TPS-CNデータセットのリッチテキストを活用する。
- 参考スコア(独自算出の注目度): 20.02304350708749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person search aims to simultaneously localize and identify the
target person based on query text from uncropped scene images, which can be
regarded as the unified task of person detection and text-based person
retrieval task. In this work, we propose a large-scale benchmark dataset named
PRW-TPS-CN based on the widely used person search dataset PRW. Our dataset
contains 47,102 sentences, which means there is quite more information than
existing dataset. These texts precisely describe the person images from top to
bottom, which in line with the natural description order. We also provide both
Chinese and English descriptions in our dataset for more comprehensive
evaluation. These characteristics make our dataset more applicable. To
alleviate the inconsistency between person detection and text-based person
retrieval, we take advantage of the rich texts in PRW-TPS-CN dataset. We
propose to aggregate multiple texts as text prototypes to maintain the
prominent text features of a person, which can better reflect the whole
character of a person. The overall prototypes lead to generating the image
attention map to eliminate the detection misalignment causing the decrease of
text-based person retrieval. Thus, the inconsistency between person detection
and text-based person retrieval is largely alleviated. We conduct extensive
experiments on the PRW-TPS-CN dataset. The experimental results show the
PRW-TPS-CN dataset's effectiveness and the state-of-the-art performance of our
approach.
- Abstract(参考訳): テキストベース人物検索は,人物検出とテキストベース人物検索の統一課題と見なすことができる,未カットシーン画像からの問合せテキストに基づいて,対象人物のローカライズと識別を同時に行うことを目的としている。
本研究では,広く利用されている人物検索データセットPRWに基づく大規模ベンチマークデータセットPRW-TPS-CNを提案する。
私たちのデータセットには47,102の文が含まれています。
これらのテキストは上から下までの人物像を正確に記述しており、これは自然な記述順序に従っている。
また、より包括的な評価のために、私たちのデータセットに中国語と英語の記述も提供します。
これらの特徴はデータセットをより適用しやすくします。
個人検出とテキストに基づく人物検索の不整合を軽減するために,PRW-TPS-CNデータセットのリッチテキストを活用する。
本研究では,複数のテキストをテキストプロトタイプとして集約して,人物の顕著なテキスト特徴を維持することを提案する。
全体のプロトタイプは画像アテンションマップを生成し、テキストベースの人物検索の低下を引き起こす検出ミスアライメントを解消する。
これにより、人物検出とテキストに基づく人物検索との矛盾が軽減される。
PRW-TPS-CNデータセットについて広範な実験を行った。
実験の結果, PRW-TPS-CNデータセットの有効性と, 提案手法の最先端性能が示された。
関連論文リスト
- From Attributes to Natural Language: A Survey and Foresight on Text-based Person Re-identification [4.400729890122927]
テキストベースのRe-IDの目的は、属性や自然言語の記述を精査することで、特定の歩行者を認識することである。
技術的観点からは、テキストベースの人物であるRe-IDを要約する包括的なレビューが欠落している。
本稿では,評価,戦略,アーキテクチャ,最適化の分野にまたがる分類を導入し,テキストベースの人物Re-IDタスクの総合的な調査を行う。
論文 参考訳(メタデータ) (2024-07-31T18:16:18Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - GPT-generated Text Detection: Benchmark Dataset and Tensor-based
Detection Method [4.802604527842989]
GPT Reddit データセット(GRiD)は,GPT(Generative Pretrained Transformer)によって生成された新しいテキスト検出データセットである。
データセットは、Redditに基づくコンテキストプロンプトペアと、人間生成とChatGPT生成のレスポンスで構成されている。
データセットの有用性を示すために、我々は、その上でいくつかの検出方法をベンチマークし、人間とChatGPTが生成する応答を区別する効果を実証した。
論文 参考訳(メタデータ) (2024-03-12T05:15:21Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。