論文の概要: Progressive Feature Mining and External Knowledge-Assisted
Text-Pedestrian Image Retrieval
- arxiv url: http://arxiv.org/abs/2308.11994v1
- Date: Wed, 23 Aug 2023 08:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 15:06:43.708415
- Title: Progressive Feature Mining and External Knowledge-Assisted
Text-Pedestrian Image Retrieval
- Title(参考訳): プログレッシブ特徴マイニングと外部知識支援テキストペデストリアン画像検索
- Authors: Huafeng Li, Shedan Yang, Yafei Zhang, Dapeng Tao, Zhengtao Yu
- Abstract要約: Text-Pedestrian Image Retrievalは、歩行者の外観を記述するテキストを使用して、対応する歩行者画像を取得することを目的としている。
本稿では,進化的特徴マイニングと外部知識を用いた特徴浄化手法を提案する。
- 参考スコア(独自算出の注目度): 21.46563366003072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-Pedestrian Image Retrieval aims to use the text describing pedestrian
appearance to retrieve the corresponding pedestrian image. This task involves
not only modality discrepancy, but also the challenge of the textual diversity
of pedestrians with the same identity. At present, although existing research
progress has been made in text-pedestrian image retrieval, these methods do not
comprehensively consider the above-mentioned problems. Considering these, this
paper proposes a progressive feature mining and external knowledge-assisted
feature purification method. Specifically, we use a progressive mining mode to
enable the model to mine discriminative features from neglected information,
thereby avoiding the loss of discriminative information and improving the
expression ability of features. In addition, to further reduce the negative
impact of modal discrepancy and text diversity on cross-modal matching, we
propose to use other sample knowledge of the same modality, i.e., external
knowledge to enhance identity-consistent features and weaken
identity-inconsistent features. This process purifies features and alleviates
the interference caused by textual diversity and negative sample correlation
features of the same modal. Extensive experiments on three challenging datasets
demonstrate the effectiveness and superiority of the proposed method, and the
retrieval performance even surpasses that of the large-scale model-based method
on large-scale datasets.
- Abstract(参考訳): Text-Pedestrian Image Retrievalは、歩行者の外観を記述するテキストを使用して、対応する歩行者画像を取得することを目的としている。
このタスクは、モダリティの相違だけでなく、同じアイデンティティを持つ歩行者のテキストの多様性の課題も含んでいる。
現在,テキストペデストリアン画像検索において研究の進展が見られるが,これらの手法は上記の問題を包括的に考慮していない。
そこで本研究では, プログレッシブ機能マイニングと外部知識支援機能浄化手法を提案する。
具体的には,モデルが無視された情報から識別的特徴をマイニングできるプログレッシブマイニングモードを用い,識別的情報の損失を回避し,特徴の表現能力を向上させる。
さらに、モーダル差分とテキストの多様性がモーダル整合性に与える影響をさらに軽減するために、同じモダリティに関する他のサンプル知識、すなわち、外的知識を用いてアイデンティティ一貫性のある特徴を強化し、アイデンティティ一貫性のない特徴を弱めることを提案する。
このプロセスは、テキストの多様性と負のサンプル相関の特徴によって引き起こされる干渉を浄化し、緩和する。
3つの挑戦的データセットに対する大規模な実験により提案手法の有効性と優位性を実証し,大規模データセット上での大規模モデルベース手法よりも高い検索性能を示した。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Person Text-Image Matching via Text-Featur Interpretability Embedding
and External Attack Node Implantation [22.070781214170164]
人物のテキスト画像マッチングは、テキスト記述を用いて特定の歩行者の画像を取得することを目的としている。
テキスト機能の解釈可能性の欠如は、それらと対応する画像の特徴を効果的に整合させることを困難にしている。
テキスト特徴解釈能力と外部攻撃ノードを組み込んだ人物画像マッチング手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T04:15:37Z) - R\'enyiCL: Contrastive Representation Learning with Skew R\'enyi
Divergence [78.15455360335925]
我々はR'enyiCLという新しい頑健なコントラスト学習手法を提案する。
我々の手法は R'enyi divergence の変動的下界の上に構築されている。
我々は,R'enyi の対照的な学習目的が,自然に強い負のサンプリングと簡単な正のサンプリングを同時に行うことを示す。
論文 参考訳(メタデータ) (2022-08-12T13:37:05Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Deep Collaborative Multi-Modal Learning for Unsupervised Kinship
Estimation [53.62256887837659]
キンシップ検証は、コンピュータビジョンにおける長年の研究課題である。
本稿では,顔特性に表される基礎情報を統合するために,新しい協調型多モーダル学習(DCML)を提案する。
我々のDCML法は、常に最先端のキンシップ検証法よりも優れている。
論文 参考訳(メタデータ) (2021-09-07T01:34:51Z) - Understanding Failures of Deep Networks via Robust Feature Extraction [44.204907883776045]
本研究では,視覚的特徴を識別し,不在や不在がパフォーマンスの低下を招き,失敗を特徴づけ,説明することを目的とした手法を紹介し,検討する。
我々は、分離されたロバストモデルの表現を活用して、解釈可能な特徴を抽出し、これらの特徴を利用して障害モードを特定します。
論文 参考訳(メタデータ) (2020-12-03T08:33:29Z) - Disentanglement for Discriminative Visual Recognition [7.954325638519141]
この章では、有害な要因を、タスク関連/非関連なセマンティックなバリエーションと、特定されていない潜伏的なバリエーションとして体系的に要約する。
統合された2つの完全に接続されたレイヤブランチフレームワークにおいて、ディープメトリックロスとソフトマックスロスを組み合わせることで、より優れたFER性能を実現することができる。
このフレームワークは、照明、化粧、変装耐性顔認証、顔属性認識など、一連のタスクにおいて最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T06:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。