論文の概要: Mining False Positive Examples for Text-Based Person Re-identification
- arxiv url: http://arxiv.org/abs/2303.08466v1
- Date: Wed, 15 Mar 2023 09:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:18:48.124527
- Title: Mining False Positive Examples for Text-Based Person Re-identification
- Title(参考訳): テキストベース人物再同定のための偽陽性例のマイニング
- Authors: Wenhao Xu, Zhiyin Shao, Changxing Ding
- Abstract要約: テキストベースの人物再識別(ReID)は,大規模人物画像データベースから対象人物の画像を特定することを目的としている。
モーダル間の大きなギャップのため、テキストベースのReIDは依然として難しい問題である。
共同最適化型マルチブランチアーキテクチャによる偽陽性例の抽出を提案する。
- 参考スコア(独自算出の注目度): 14.092855206468746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person re-identification (ReID) aims to identify images of the
targeted person from a large-scale person image database according to a given
textual description. However, due to significant inter-modal gaps, text-based
person ReID remains a challenging problem. Most existing methods generally rely
heavily on the similarity contributed by matched word-region pairs, while
neglecting mismatched word-region pairs which may play a decisive role.
Accordingly, we propose to mine false positive examples (MFPE) via a jointly
optimized multi-branch architecture to handle this problem. MFPE contains three
branches including a false positive mining (FPM) branch to highlight the role
of mismatched word-region pairs. Besides, MFPE delicately designs a cross-relu
loss to increase the gap of similarity scores between matched and mismatched
word-region pairs. Extensive experiments on CUHK-PEDES demonstrate the superior
effectiveness of MFPE. Our code is released at
https://github.com/xx-adeline/MFPE.
- Abstract(参考訳): テキストベースの人物再識別(ReID)は,対象人物の画像をテキスト記述に基づいて大規模人物画像データベースから識別することを目的としている。
しかし、モーダル間の大きなギャップのため、テキストベースのReIDは依然として難しい問題である。
既存の手法の多くは、一致した単語領域対がもたらす類似性に大きく依存するが、決定的な役割を果たす可能性のある単語領域対を無視する。
そこで我々は,この問題を解決するために,共同最適化型マルチブランチアーキテクチャを用いた偽陽性例(MFPE)を提案する。
MFPEには、ミスマッチした単語領域ペアの役割を強調する偽陽性マイニング(FPM)ブランチを含む3つのブランチが含まれている。
さらに、MFPEは、一致した単語領域対と一致しない単語領域対の類似度スコアのギャップを増大させるために、相互可逆損失を微妙に設計する。
CUHK-PEDESに関する大規模な実験は、MFPEの優れた効果を示す。
私たちのコードはhttps://github.com/xx-adeline/mfpeでリリースしています。
関連論文リスト
- PersonMAE: Person Re-Identification Pre-Training with Masked
AutoEncoders [132.60355401780407]
個人再識別のための汎用的特徴表現(ReID)の学習において,事前学習はますます重要な役割を担っている
本稿では,Person Re-IDの課題に対処するために,2つのコア設計をマスク付きオートエンコーダに組み込んだPersonMAEを提案する。
ViT-Bのバックボーンを持つ PersonMAE は MSMT17 と OccDuke のデータセット上で 79.8% と 69.5% の mAP を達成する。
論文 参考訳(メタデータ) (2023-11-08T07:02:27Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-26T07:03:56Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - RefCrowd: Grounding the Target in Crowd with Referring Expressions [20.822504213866726]
提案するRefCrowdは,対象人物を対象人物として参照表現で検索する。
自然言語情報を十分に掘り下げるだけでなく、ターゲットと類似した外見を持つ人々の群衆の微妙な違いに注意する必要がある。
また,群衆理解におけるREFを扱うために,FMAC(Fulti-modal Attribute Contrastive Network)を提案する。
論文 参考訳(メタデータ) (2022-06-16T13:39:26Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - MagnifierNet: Towards Semantic Adversary and Fusion for Person
Re-identification [38.13515165097505]
MagnifierNetはトリプルブランチネットワークで、詳細を全体から部分まで正確にマイニングする。
「セマンティックフュージョンブランチ」は、意味領域情報を逐次融合することにより、無関係なノイズを除去する。
セマンティック多様性損失」は、学習されたセマンティック表現間で重複する重複を取り除く。
論文 参考訳(メタデータ) (2020-02-25T15:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。