論文の概要: Dual-path CNN with Max Gated block for Text-Based Person
Re-identification
- arxiv url: http://arxiv.org/abs/2009.09343v1
- Date: Sun, 20 Sep 2020 03:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:51:08.896325
- Title: Dual-path CNN with Max Gated block for Text-Based Person
Re-identification
- Title(参考訳): テキストベース人物識別のための最大ゲートブロック付きデュアルパスCNN
- Authors: Tinghuai Ma, Mingming Yang, Huan Rong, Yurong Qian, Yurong Qian, Yuan
Tian, NajlaAl-Nabhan
- Abstract要約: The novel Dual-path CNN with Max Gated Block (DCMG) was proposed to extract discriminative word embeddeds。
このフレームワークは、クロスモーダル・プロジェクションマッチングに最適化された2つのディープ残差CNNに基づいている。
提案手法はランク1のスコア55.81%を達成し,最先端の手法を1.3%上回った。
- 参考スコア(独自算出の注目度): 6.1534388046236765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person re-identification(Re-id) is an important task in video
surveillance, which consists of retrieving the corresponding person's image
given a textual description from a large gallery of images. It is difficult to
directly match visual contents with the textual descriptions due to the
modality heterogeneity. On the one hand, the textual embeddings are not
discriminative enough, which originates from the high abstraction of the
textual descriptions. One the other hand,Global average pooling (GAP) is
commonly utilized to extract more general or smoothed features implicitly but
ignores salient local features, which are more important for the cross-modal
matching problem. With that in mind, a novel Dual-path CNN with Max Gated block
(DCMG) is proposed to extract discriminative word embeddings and make
visual-textual association concern more on remarkable features of both
modalities. The proposed framework is based on two deep residual CNNs jointly
optimized with cross-modal projection matching (CMPM) loss and cross-modal
projection classification (CMPC) loss to embed the two modalities into a joint
feature space. First, the pre-trained language model, BERT, is combined with
the convolutional neural network (CNN) to learn better word embeddings in the
text-to-image matching domain. Second, the global Max pooling (GMP) layer is
applied to make the visual-textual features focus more on the salient part. To
further alleviate the noise of the maxed-pooled features, the gated block (GB)
is proposed to produce an attention map that focuses on meaningful features of
both modalities. Finally, extensive experiments are conducted on the benchmark
dataset, CUHK-PEDES, in which our approach achieves the rank-1 score of 55.81%
and outperforms the state-of-the-art method by 1.3%.
- Abstract(参考訳): テキストベースの人物再識別(re-id)はビデオ監視において重要なタスクであり、大きな画像ギャラリーからテキスト記述を与えられた相手の画像を検索する。
モダリティの不均一性により、視覚内容とテキスト記述とを直接一致させることは困難である。
一方、テクスト的埋め込みは、テキスト的記述の抽象度が高いことに由来する、十分に差別的ではない。
一方、Global average pooling (GAP) は一般に、より一般的な特徴や滑らかな特徴を暗黙的に抽出するために用いられるが、局所的な特徴は無視される。
このことを念頭に置いて, 識別単語の埋め込みを抽出し, 両モダリティの顕著な特徴を視覚的・テクスチャ的関連性に配慮した, デュアルパスCNN (DCMG) を提案する。
提案手法は,CMPMの損失とCMPCの損失に最適化された2つの残差CNNを併用し,その2つのモードを結合特徴空間に埋め込む。
まず、事前訓練された言語モデルBERTと畳み込みニューラルネットワーク(CNN)を組み合わせて、テキストと画像のマッチングドメインにより良い単語の埋め込みを学習する。
第二に、グローバルマックスプーリング(gmp)層を適用して、視覚的なテキストの特徴をよりサルエントな部分に集中させる。
最大プール特性の雑音を緩和するため,両モードの有意な特徴に着目したアテンションマップを作成するために,ゲートブロック(GB)を提案する。
最後に、ベンチマークデータセットであるCUHK-PEDESを用いて、55.81%のランク1スコアを達成し、最先端の手法を1.3%上回る大規模な実験を行った。
関連論文リスト
- Improving Face Recognition from Caption Supervision with Multi-Granular
Contextual Feature Aggregation [0.0]
我々は,COTS(Commercial-off-the-Shelf)顔認識システムの性能向上のための新しいフレームワークとして,キャプション誘導顔認識(CGFR)を導入した。
本稿では,2つの顔認識モデル(ArcFaceとAdaFace)にCGFRフレームワークを実装し,その性能をマルチモーダルCelebA-HQデータセットで評価した。
論文 参考訳(メタデータ) (2023-08-13T23:52:15Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。