論文の概要: Mining False Positive Examples for Text-Based Person Re-identification
- arxiv url: http://arxiv.org/abs/2303.08466v1
- Date: Wed, 15 Mar 2023 09:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 14:18:48.124527
- Title: Mining False Positive Examples for Text-Based Person Re-identification
- Title(参考訳): テキストベース人物再同定のための偽陽性例のマイニング
- Authors: Wenhao Xu, Zhiyin Shao, Changxing Ding
- Abstract要約: テキストベースの人物再識別(ReID)は,大規模人物画像データベースから対象人物の画像を特定することを目的としている。
モーダル間の大きなギャップのため、テキストベースのReIDは依然として難しい問題である。
共同最適化型マルチブランチアーキテクチャによる偽陽性例の抽出を提案する。
- 参考スコア(独自算出の注目度): 14.092855206468746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person re-identification (ReID) aims to identify images of the
targeted person from a large-scale person image database according to a given
textual description. However, due to significant inter-modal gaps, text-based
person ReID remains a challenging problem. Most existing methods generally rely
heavily on the similarity contributed by matched word-region pairs, while
neglecting mismatched word-region pairs which may play a decisive role.
Accordingly, we propose to mine false positive examples (MFPE) via a jointly
optimized multi-branch architecture to handle this problem. MFPE contains three
branches including a false positive mining (FPM) branch to highlight the role
of mismatched word-region pairs. Besides, MFPE delicately designs a cross-relu
loss to increase the gap of similarity scores between matched and mismatched
word-region pairs. Extensive experiments on CUHK-PEDES demonstrate the superior
effectiveness of MFPE. Our code is released at
https://github.com/xx-adeline/MFPE.
- Abstract(参考訳): テキストベースの人物再識別(ReID)は,対象人物の画像をテキスト記述に基づいて大規模人物画像データベースから識別することを目的としている。
しかし、モーダル間の大きなギャップのため、テキストベースのReIDは依然として難しい問題である。
既存の手法の多くは、一致した単語領域対がもたらす類似性に大きく依存するが、決定的な役割を果たす可能性のある単語領域対を無視する。
そこで我々は,この問題を解決するために,共同最適化型マルチブランチアーキテクチャを用いた偽陽性例(MFPE)を提案する。
MFPEには、ミスマッチした単語領域ペアの役割を強調する偽陽性マイニング(FPM)ブランチを含む3つのブランチが含まれている。
さらに、MFPEは、一致した単語領域対と一致しない単語領域対の類似度スコアのギャップを増大させるために、相互可逆損失を微妙に設計する。
CUHK-PEDESに関する大規模な実験は、MFPEの優れた効果を示す。
私たちのコードはhttps://github.com/xx-adeline/mfpeでリリースしています。
関連論文リスト
- Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - RefCrowd: Grounding the Target in Crowd with Referring Expressions [20.822504213866726]
提案するRefCrowdは,対象人物を対象人物として参照表現で検索する。
自然言語情報を十分に掘り下げるだけでなく、ターゲットと類似した外見を持つ人々の群衆の微妙な違いに注意する必要がある。
また,群衆理解におけるREFを扱うために,FMAC(Fulti-modal Attribute Contrastive Network)を提案する。
論文 参考訳(メタデータ) (2022-06-16T13:39:26Z) - Detector-Free Weakly Supervised Grounding by Separation [76.65699170882036]
Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。
本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。
我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
論文 参考訳(メタデータ) (2021-04-20T08:27:31Z) - Dual-path CNN with Max Gated block for Text-Based Person
Re-identification [6.1534388046236765]
The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
論文 参考訳(メタデータ) (2020-09-20T03:33:29Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - MagnifierNet: Towards Semantic Adversary and Fusion for Person
Re-identification [38.13515165097505]
MagnifierNetはトリプルブランチネットワークで、詳細を全体から部分まで正確にマイニングする。
「セマンティックフュージョンブランチ」は、意味領域情報を逐次融合することにより、無関係なノイズを除去する。
セマンティック多様性損失」は、学習されたセマンティック表現間で重複する重複を取り除く。
論文 参考訳(メタデータ) (2020-02-25T15:43:46Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。