Fugu-MT 論文翻訳(概要): Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark

論文の概要: Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark

arxiv url: http://arxiv.org/abs/2306.02898v4
Date: Mon, 14 Aug 2023 07:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 10:21:48.509022
Title: Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark
Title（参考訳）: 統一テキスト型人物検索に向けて:大規模マルチ属性と言語検索ベンチマーク
Authors: Shuyu Yang, Yinan Zhou, Yaxiong Wang, Yujiao Wu, Li Zhu, Zhedong Zheng
Abstract要約: 我々は,MALSと呼ばれるテキストに基づく人物検索のための多属性・言語検索データセットを大規模に導入した。プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。生成したデータから学習する可能性を検証するために,新たに属性プロンプト学習とテキストマッチング学習フレームワークを開発する。
参考スコア（独自算出の注目度）: 24.366997699462075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce a large Multi-Attribute and Language Search dataset for text-based person retrieval, called MALS, and explore the feasibility of performing pre-training on both attribute recognition and image-text matching tasks in one stone. In particular, MALS contains 1,510,330 image-text pairs, which is about 37.5 times larger than prevailing CUHK-PEDES, and all images are annotated with 27 attributes. Considering the privacy concerns and annotation costs, we leverage the off-the-shelf diffusion models to generate the dataset. To verify the feasibility of learning from the generated data, we develop a new joint Attribute Prompt Learning and Text Matching Learning (APTM) framework, considering the shared knowledge between attribute and text. As the name implies, APTM contains an attribute prompt learning stream and a text matching learning stream. (1) The attribute prompt learning leverages the attribute prompts for image-attribute alignment, which enhances the text matching learning. (2) The text matching learning facilitates the representation learning on fine-grained details, and in turn, boosts the attribute prompt learning. Extensive experiments validate the effectiveness of the pre-training on MALS, achieving state-of-the-art retrieval performance via APTM on three challenging real-world benchmarks. In particular, APTM achieves a consistent improvement of +6.96%, +7.68%, and +16.95% Recall@1 accuracy on CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets by a clear margin, respectively.
Abstract（参考訳）: 本稿では,テキストベース人物検索のための大規模多属性・言語検索データセットmalsを紹介し,属性認識と画像テキストマッチングタスクの両方で事前学習を行う可能性について検討する。特にMALSには1,510,330のイメージテキストペアがあり、CUHK-PEDESの約37.5倍の大きさで、すべてのイメージに27の属性が付加されている。プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。生成されたデータから学習する可能性を検証するため,属性とテキストの共有知識を考慮し,新たにaptm(joint attribute prompt learning and text matching learning)フレームワークを開発した。名前が示すように、APTMには属性プロンプト学習ストリームとテキストマッチング学習ストリームが含まれている。 1)属性プロンプト学習は属性プロンプトを利用して画像-属性アライメントを行い,テキストマッチング学習を強化する。 2) テキストマッチング学習は, きめ細かな細部での表現学習を促進するとともに, 属性のプロンプト学習を促進させる。大規模な実験により、MALSの事前学習の有効性が検証され、3つの挑戦的な実世界のベンチマーク上でAPTMによる最先端の検索性能が達成された。特にAPTMは、CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットをそれぞれ明確なマージンで、+6.96%、+7.68%、+16.95%のリコール@1精度で一貫した改善を実現している。

関連論文リスト

TSAL: Few-shot Text Segmentation Based on Attribute Learning [21.413607725856263]
本稿では,CLIPの事前知識を利用してテキスト属性のセグメンテーションを学習するTSALを提案する。データ依存性を低減し、テキスト検出精度を向上させるため、適応的なプロンプト誘導分岐は効果的な適応的なプロンプトテンプレートを使用する。実験により, 複数テキストセグメンテーションデータセット上でのSOTA性能について, 数ショット設定で検証した。
論文参考訳（メタデータ） (2025-04-15T13:12:42Z)
LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [63.07563443280147]
本稿では,AG-ReID のための新しいフレームワーク LATex を提案する。属性ベースのテキスト知識を活用するために、プロンプトチューニング戦略を採用する。我々のフレームワークは、AG-ReIDを改善するために属性ベースのテキスト知識を完全に活用できる。
論文参考訳（メタデータ） (2025-03-31T04:47:05Z)
Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。 Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文参考訳（メタデータ） (2024-12-30T01:38:14Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。 CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文参考訳（メタデータ） (2024-07-05T06:44:43Z)
AKGNet: Attribute Knowledge-Guided Unsupervised Lung-Infected Area Segmentation [25.874281336821685]
肺疾患の重症度を評価するためには, 肺感染症領域のセグメンテーションが重要である。肺に感染した領域を非教師的に分類するための新しい属性知識誘導フレームワークを提案する。 AKGNetは、テキスト属性知識の学習、属性イメージ間の融合、高信頼に基づく擬似ラベル探索を容易にする。
論文参考訳（メタデータ） (2024-04-17T02:36:02Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Learning Transferable Pedestrian Representation from Multimodal Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文参考訳（メタデータ） (2023-04-12T01:20:58Z)
Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image Generation [18.36261166580862]
テキスト・ツー・イメージ生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出する。属性情報を補完する有効なテキスト表現法を提案する。
論文参考訳（メタデータ） (2022-09-28T12:28:54Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。 TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文参考訳（メタデータ） (2020-12-08T18:55:21Z)
ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language [36.319953919737245]
自然言語による人物検索は、与えられたテキスト記述にマッチする大規模な画像プールにおいて、特定の人物を検索することを目的としている。そこで本稿では,特定の属性句を対応する視覚領域に接地できる属性適応型視点を提案する。私たちは、堅牢な機能学習によってパフォーマンスが向上するだけでなく、成功も達成しています。
論文参考訳（メタデータ） (2020-05-15T02:22:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。