論文の概要: CLEAR: Cross-Transformers with Pre-trained Language Model is All you need for Person Attribute Recognition and Retrieval
- arxiv url: http://arxiv.org/abs/2403.06119v2
- Date: Tue, 30 Apr 2024 12:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 19:08:44.461126
- Title: CLEAR: Cross-Transformers with Pre-trained Language Model is All you need for Person Attribute Recognition and Retrieval
- Title(参考訳): CLEAR: 事前訓練された言語モデルを持つクロストランスフォーマーは、個人属性認識と検索に必要なもの
- Authors: Doanh C. Bui, Thinh V. Le, Ba Hung Ngo, Tae Jong Choi,
- Abstract要約: 属性認識と属性ベースの検索は、人間中心の2つのコアタスクである。
個人属性認識のための頑健なクロストランスフォーマーネットワークを導入する。
また、アダプタのいくつかの追加パラメータのみをトレーニングするための効果的なトレーニング戦略も導入しています。
CLEARは、両方のタスクに対して最先端のパフォーマンスまたは競合的な結果を達成する。
- 参考スコア(独自算出の注目度): 0.18749305679160366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person attribute recognition and attribute-based retrieval are two core human-centric tasks. In the recognition task, the challenge is specifying attributes depending on a person's appearance, while the retrieval task involves searching for matching persons based on attribute queries. There is a significant relationship between recognition and retrieval tasks. In this study, we demonstrate that if there is a sufficiently robust network to solve person attribute recognition, it can be adapted to facilitate better performance for the retrieval task. Another issue that needs addressing in the retrieval task is the modality gap between attribute queries and persons' images. Therefore, in this paper, we present CLEAR, a unified network designed to address both tasks. We introduce a robust cross-transformers network to handle person attribute recognition. Additionally, leveraging a pre-trained language model, we construct pseudo-descriptions for attribute queries and introduce an effective training strategy to train only a few additional parameters for adapters, facilitating the handling of the retrieval task. Finally, the unified CLEAR model is evaluated on five benchmarks: PETA, PA100K, Market-1501, RAPv2, and UPAR-2024. Without bells and whistles, CLEAR achieves state-of-the-art performance or competitive results for both tasks, significantly outperforming other competitors in terms of person retrieval performance on the widely-used Market-1501 dataset.
- Abstract(参考訳): 属性認識と属性ベースの検索は、人間中心の2つのコアタスクである。
認識タスクでは、人物の外観に応じて属性を指定するのが課題であり、検索タスクは属性クエリに基づいて人物のマッチングを検索する。
認識タスクと検索タスクの間には大きな関係がある。
本研究では,人的属性認識に十分頑健なネットワークが存在する場合,検索タスクの性能向上に適応できることを実証する。
検索タスクで対処する必要があるもう1つの問題は、属性クエリと人のイメージの間のモダリティギャップである。
そこで本稿では,両課題に対処する統合ネットワークであるCLEARを提案する。
個人属性認識のための頑健なクロストランスフォーマーネットワークを導入する。
さらに,事前学習された言語モデルを活用することで,属性クエリの擬似記述を構築し,いくつかの追加パラメータのみをトレーニングするための効果的なトレーニング戦略を導入し,検索タスクの処理を容易にする。
最後に、統一CLEARモデルをPETA、PA100K、Market-1501、RAPv2、UPAR-2024の5つのベンチマークで評価する。
ベルとホイッスルがなければ、CLEARは両タスクの最先端のパフォーマンスや競争成績を達成し、広く使われているMarket-1501データセットで人件検索のパフォーマンスにおいて、他のライバルよりも大幅に上回っている。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Divide and Conquer: Hybrid Pre-training for Person Search [40.13016375392472]
本研究では,サブタスクデータのみを用いた人物検索のためのハイブリッド事前学習フレームワークを提案する。
我々のモデルは、人物探索法、微調整データ、事前学習データ、モデルバックボーンなど、多様なプロトコルで大幅に改善できる。
私たちのコードと事前訓練されたモデルは、人検索コミュニティにプラグイン・アンド・プレイの使用のためにリリースされます。
論文 参考訳(メタデータ) (2023-12-13T08:33:50Z) - Beyond Semantics: Learning a Behavior Augmented Relevance Model with
Self-supervised Learning [25.356999988217325]
関連モデリングは、対応するクエリに対して望ましい項目を見つけることを目的としている。
ユーザの履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを提供する可能性がある。
本モデルでは, 隣接する視点と対象視点の両方から, 粗粒度および細粒度の意味表現を蒸留するための多レベルコアテンションを構築している。
論文 参考訳(メタデータ) (2023-08-10T06:52:53Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - End-to-end Person Search Sequentially Trained on Aggregated Dataset [1.9766522384767227]
本稿では,検出と特徴抽出を共同で計算するエンド・ツー・エンドのモデルを提案する。
コストのかかるIDアノテーションを使わずに、より多くの歩行者検出データセットを集約することで、共有機能マップがより汎用的であることを示す。
論文 参考訳(メタデータ) (2022-01-24T11:22:15Z) - Multi-Attribute Enhancement Network for Person Search [7.85420914437147]
人物探索は、人物検出と人物再識別(Re-ID)の問題を共同で解くように設計されている
視覚的な文字属性は、Re-IDで検索されたが、Person Searchで無視されたクエリ人物を取得する上で重要な役割を果たします。
本稿では,属性学習をモデルに導入し,属性機能を検索タスクに活用する。
論文 参考訳(メタデータ) (2021-02-16T05:43:47Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - Joint Item Recommendation and Attribute Inference: An Adaptive Graph
Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。
ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。
本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文 参考訳(メタデータ) (2020-05-25T10:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。