論文の概要: Semantically Self-Aligned Network for Text-to-Image Part-aware Person
Re-identification
- arxiv url: http://arxiv.org/abs/2107.12666v1
- Date: Tue, 27 Jul 2021 08:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:40:32.636929
- Title: Semantically Self-Aligned Network for Text-to-Image Part-aware Person
Re-identification
- Title(参考訳): テキストから画像への部分認識のための意味的自己整合ネットワーク
- Authors: Zefeng Ding, Changxing Ding, Zhiyin Shao, Dacheng Tao
- Abstract要約: ReID(Text-to-image person re-identification)は、テキスト記述を用いて興味のある人物を含む画像を検索することを目的としている。
上記の問題に対処するために,Semantically Self-Aligned Network (SSAN)を提案する。
ICFG-PEDESという新しいデータベースを構築。
- 参考スコア(独自算出の注目度): 78.45528514468836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image person re-identification (ReID) aims to search for images
containing a person of interest using textual descriptions. However, due to the
significant modality gap and the large intra-class variance in textual
descriptions, text-to-image ReID remains a challenging problem. Accordingly, in
this paper, we propose a Semantically Self-Aligned Network (SSAN) to handle the
above problems. First, we propose a novel method that automatically extracts
semantically aligned part-level features from the two modalities. Second, we
design a multi-view non-local network that captures the relationships between
body parts, thereby establishing better correspondences between body parts and
noun phrases. Third, we introduce a Compound Ranking (CR) loss that makes use
of textual descriptions for other images of the same identity to provide extra
supervision, thereby effectively reducing the intra-class variance in textual
features. Finally, to expedite future research in text-to-image ReID, we build
a new database named ICFG-PEDES. Extensive experiments demonstrate that SSAN
outperforms state-of-the-art approaches by significant margins. Both the new
ICFG-PEDES database and the SSAN code are available at
https://github.com/zifyloo/SSAN.
- Abstract(参考訳): ReID(Text-to-image person re-identification)は、テキスト記述を用いて興味のある人物を含む画像を検索することを目的としている。
しかし,テキスト記述におけるモダリティギャップとクラス内大きなばらつきのため,テキストから画像へのReIDは依然として困難な問題である。
そこで本稿では,これらの問題に対処するためのセマンティック・セルフアラインド・ネットワーク(SSAN)を提案する。
まず,2つのモダリティから意味的に整合した部分レベル特徴を自動的に抽出する手法を提案する。
第2に,身体部分間の関係を捉えるマルチビュー非局所ネットワークを設計し,身体部分と名詞句の対応性を向上する。
第3に,同画像の他の画像に対するテキスト記述を利用した複合ランク付け(CR)ロスを導入し,テキスト特徴のクラス内分散を効果的に低減する。
最後に,テキストから画像へのReIDの研究を迅速化するため,ICFG-PEDESという新しいデータベースを構築した。
広範な実験により、SSANは最先端のアプローチをかなりのマージンで上回ることを示した。
新しいICFG-PEDESデータベースとSSANコードはhttps://github.com/zifyloo/SSAN.comで入手できる。
関連論文リスト
- Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習できる新しいロバスト二重埋め込み法(RDE)を提案する。
RDEは2つの主要なコンポーネントから構成される: 1) 信頼合意部(CCD)モジュールは、二重埋め込みモジュールの二重きめ細かい決定を利用して、クリーンなトレーニングデータのコンセンサスセットを得る。
我々は、CUHK-PEDES、ICFG-PEDES、RSTPReIDの3つの公開ベンチマークにおいて、RDEの性能と堅牢性を評価するために広範な実験を行った。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Unleashing the Imagination of Text: A Novel Framework for Text-to-image
Person Retrieval via Exploring the Power of Words [0.951828574518325]
文中の単語のパワーを探索する新しい枠組みを提案する。
このフレームワークは、トレーニング済みのフルCLIPモデルをイメージとテキストのデュアルエンコーダとして採用している。
ハードサンプルの処理に適したクロスモーダル三重項損失を導入し,微妙な違いを識別するモデルの能力を高めた。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Calibrating Cross-modal Features for Text-Based Person Searching [18.3145271655619]
本稿では,2つの視点から横断的特徴を校正する簡易かつ効果的な手法を提案する。
提案手法は,2つの新たな損失から成り,細粒度のクロスモーダルな特徴を提供する。
73.81%、74.25%、57.35%の精度で3つの人気のあるベンチマークで上位となる。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。