論文の概要: VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search
- arxiv url: http://arxiv.org/abs/2311.07514v1
- Date: Mon, 13 Nov 2023 17:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:08:21.646964
- Title: VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search
- Title(参考訳): VGSG:テキスト検索のための視覚誘導セマンティックグループネットワーク
- Authors: Shuting He, Hao Luo, Wei Jiang, Xudong Jiang, Henghui Ding
- Abstract要約: テキストに基づく人物検索のための視覚誘導セマンティック・グループ・ネットワーク(VGSG)を提案する。
VGSGでは、視覚関連テキストの特徴を抽出するために視覚誘導の注意が用いられる。
関係知識伝達の助けを借りて、VGKTは意味群テキスト特徴と対応する視覚特徴とを整合させることができる。
- 参考スコア(独自算出の注目度): 51.9899504535878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based Person Search (TBPS) aims to retrieve images of target pedestrian
indicated by textual descriptions. It is essential for TBPS to extract
fine-grained local features and align them crossing modality. Existing methods
utilize external tools or heavy cross-modal interaction to achieve explicit
alignment of cross-modal fine-grained features, which is inefficient and
time-consuming. In this work, we propose a Vision-Guided Semantic-Group Network
(VGSG) for text-based person search to extract well-aligned fine-grained visual
and textual features. In the proposed VGSG, we develop a Semantic-Group Textual
Learning (SGTL) module and a Vision-guided Knowledge Transfer (VGKT) module to
extract textual local features under the guidance of visual local clues. In
SGTL, in order to obtain the local textual representation, we group textual
features from the channel dimension based on the semantic cues of language
expression, which encourages similar semantic patterns to be grouped implicitly
without external tools. In VGKT, a vision-guided attention is employed to
extract visual-related textual features, which are inherently aligned with
visual cues and termed vision-guided textual features. Furthermore, we design a
relational knowledge transfer, including a vision-language similarity transfer
and a class probability transfer, to adaptively propagate information of the
vision-guided textual features to semantic-group textual features. With the
help of relational knowledge transfer, VGKT is capable of aligning
semantic-group textual features with corresponding visual features without
external tools and complex pairwise interaction. Experimental results on two
challenging benchmarks demonstrate its superiority over state-of-the-art
methods.
- Abstract(参考訳): テキストベースPerson Search(TBPS)は、テキスト記述で示される対象歩行者の画像の検索を目的としている。
TBPSはきめ細かい局所的特徴を抽出し、それらを交差モードに整列させることが不可欠である。
既存の手法では、外部ツールや重いクロスモーダル相互作用を利用して、非効率で時間を要するクロスモーダルな微細な特徴の明確なアライメントを実現する。
本研究では,テキストに基づく人物探索のための視覚ガイド型セマンティック・グループ・ネットワーク(VGSG)を提案する。
提案したVGSGでは,視覚的局所的手がかりの指導のもと,テキストの局所的特徴を抽出するセマンティックグループテキスト学習(SGTL)モジュールと視覚誘導型知識伝達(VGKT)モジュールを開発した。
sgtlでは、局所的なテキスト表現を得るために、言語表現の意味的手がかりに基づいてチャンネル次元からテキスト特徴をグループ化し、類似した意味パターンを外部のツールなしで暗黙的にグループ化する。
vgktでは、視覚誘導の注意が視覚関連テキストの特徴を抽出するために用いられ、視覚誘導のテキスト特徴は本質的に視覚の手がかりと一致し、視覚誘導のテキスト特徴と呼ばれる。
さらに,視覚言語類似性伝達とクラス確率伝達を含むリレーショナル・ナレッジ・トランスファーを設計し,視覚ガイド付きテキスト特徴の情報を意味群テキスト特徴に適応的に伝達する。
リレーショナル・ナレッジ・トランスファーの助けを借りて、vgktは、セマンティクスグループによるテキストの特徴と対応する視覚的特徴を、外部ツールや複雑なペアワイズインタラクションなしで調整することができる。
2つの挑戦的ベンチマークの実験結果は、最先端の手法よりも優れていることを示している。
関連論文リスト
- Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Direction-Oriented Visual-semantic Embedding Model for Remote Sensing Image-text Retrieval [7.118271398274512]
本稿では,視覚と言語の関係を考察するため,方向指向型ビジュアル・セマンティック・エンベディング・モデル(DOVE)を提案する。
我々の目指すのは、潜在空間における視覚的およびテキスト的表現を極力近く、冗長性のない地域視覚表現に向けることである。
我々は、単一の視覚的依存を減らすためにグローバルな視覚意味制約を利用し、最終的な視覚的およびテキスト的表現の外部制約として機能する。
論文 参考訳(メタデータ) (2023-10-12T12:28:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation [5.064384692591668]
本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。
メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。
CUBとMS-COCOの2つの公開データセットに対する実験結果は、優れた視覚的およびテキスト的表現アライメントを示す。
論文 参考訳(メタデータ) (2021-09-04T22:48:46Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - MUTATT: Visual-Textual Mutual Guidance for Referring Expression
Comprehension [16.66775734538439]
参照式理解は、自然言語の参照式により、与えられた画像中のテキスト関連領域をローカライズすることを目的としている。
我々はRECにおいて参照表現と対象領域は意味論的に相関していると主張している。
視覚と言語間の相互指導を構築するために,MutAttと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-18T03:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。