論文の概要: Contextual Non-Local Alignment over Full-Scale Representation for
Text-Based Person Search
- arxiv url: http://arxiv.org/abs/2101.03036v1
- Date: Fri, 8 Jan 2021 14:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 05:06:22.261491
- Title: Contextual Non-Local Alignment over Full-Scale Representation for
Text-Based Person Search
- Title(参考訳): テキストに基づく人物検索のための実大規模表現における文脈非局所アライメント
- Authors: Chenyang Gao, Guanyu Cai, Xinyang Jiang, Feng Zheng, Jun Zhang, Yifei
Gong, Pai Peng, Xiaowei Guo, Xing Sun
- Abstract要約: テキストベースの人物検索は、その人物の記述文を用いて画像ギャラリーで対象者を検索することを目的としている。
モーダルギャップにより、識別的特徴を効果的に抽出することがより困難になるため、非常に困難です。
本論文では,あらゆるスケールで画像とテキストの特徴を適応的に調整できる手法を提案する。
- 参考スコア(独自算出の注目度): 38.69473549317668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person search aims at retrieving target person in an image gallery
using a descriptive sentence of that person. It is very challenging since modal
gap makes effectively extracting discriminative features more difficult.
Moreover, the inter-class variance of both pedestrian images and descriptions
is small. So comprehensive information is needed to align visual and textual
clues across all scales. Most existing methods merely consider the local
alignment between images and texts within a single scale (e.g. only global
scale or only partial scale) then simply construct alignment at each scale
separately. To address this problem, we propose a method that is able to
adaptively align image and textual features across all scales, called NAFS
(i.e.Non-local Alignment over Full-Scale representations). Firstly, a novel
staircase network structure is proposed to extract full-scale image features
with better locality. Secondly, a BERT with locality-constrained attention is
proposed to obtain representations of descriptions at different scales. Then,
instead of separately aligning features at each scale, a novel contextual
non-local attention mechanism is applied to simultaneously discover latent
alignments across all scales. The experimental results show that our method
outperforms the state-of-the-art methods by 5.53% in terms of top-1 and 5.35%
in terms of top-5 on text-based person search dataset. The code is available at
https://github.com/TencentYoutuResearch/PersonReID-NAFS
- Abstract(参考訳): テキストベースの人物検索は、その人物の記述文を用いて画像ギャラリーで対象者を検索することを目的としている。
モーダルギャップによって識別的特徴の抽出がより困難になるため、非常に困難である。
また,歩行者画像と記述のクラス間差異も小さい。
あらゆるスケールで視覚的およびテキスト的手がかりを調整するには、包括的な情報が必要である。
既存のほとんどの手法は、画像とテキストの局所的なアライメントを単一のスケール(例)で考えるだけである。
グローバルスケールのみまたは部分スケールのみ) は、各スケールでアライメントを個別に構築する。
この問題に対処するために,NAFS (Non-local Alignment over Full-Scale representations) と呼ばれる,すべてのスケールで画像とテキストの特徴を適応的にアライメントできる手法を提案する。
まず,本格的画像特徴を局所性良く抽出するために,新しい階段ネットワーク構造を提案する。
次に、局所性に制約のあるBERTを提案し、異なるスケールで記述の表現を得る。
そして、各スケールで個別に特徴をアライメントするのではなく、すべてのスケールにわたる潜在アライメントを同時に発見するために、新しい文脈的非局所的アライメント機構を適用する。
実験の結果,本手法はテキストベースの人物検索データセットにおいて,トップ1と5.35%で最先端の手法を5.53%上回ることがわかった。
コードはhttps://github.com/TencentYoutuResearch/PersonReID-NAFSで公開されている。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval [37.775529830620016]
リモートセンシング画像-テキスト検索(RSITR)は、リモートセンシング(RS)ドメインにおける知識サービスとデータマイニングにおいて重要な機能である。
現在のマルチスケールRSITRアプローチは、通常、マルチスケールの融合画像特徴とテキスト特徴とを一致させるが、異なるスケールで画像とテキストのペアを別々に並べて見落としている。
本稿では,この制限を克服するために,新しいマルチスケールアライメント(MSA)手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T10:19:11Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - HANet: Hierarchical Alignment Networks for Video-Text Retrieval [15.91922397215452]
ビデオテキスト検索は視覚言語理解において重要な課題である。
現在のほとんどの研究は、ビデオレベルの埋め込みとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を単純に測定している。
本稿では,階層型アライメントネットワーク(HANet)を提案する。
論文 参考訳(メタデータ) (2021-07-26T09:28:50Z) - TIPCB: A Simple but Effective Part-based Convolutional Baseline for
Text-based Person Search [18.68733575948676]
TIPCBというテキストベースの人物検索のための,シンプルだが効果的なエンドツーエンド学習フレームワークを提案する。
まず、視覚的およびテキスト的局所表現を抽出するために、新しいデュアルパス局所アライメントネットワーク構造を提案する。
次に,3つの特徴レベルからモダリティギャップを除去する多段階のクロスモーダルマッチング戦略を提案する。
本手法は,Top-1,Top-5,Top-10の3.69%,2.95%,2.31%,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T03:00:21Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。