論文の概要: Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search
- arxiv url: http://arxiv.org/abs/2208.14365v1
- Date: Tue, 30 Aug 2022 16:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:15:07.016382
- Title: Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search
- Title(参考訳): テキストに基づく人物探索における画像固有情報抑圧と暗黙的局所アライメント
- Authors: Shuanglin Yan, Hao Tang, Liyan Zhang and Jinhui Tang
- Abstract要約: テキストに基づく人物検索のための効率的な共同情報・セマンティックアライメントネットワーク (ISANet) を提案する。
具体的には、画像の背景や環境要因を抑圧する画像固有情報抑圧モジュールを最初に設計する。
次に,画像とテキストの特徴をモダリティ共有されたセマンティック・トピック・センターに適応的に集約する暗黙的な局所アライメント・モジュールを提案する。
- 参考スコア(独自算出の注目度): 61.24539128142504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person search is a challenging task that aims to search pedestrian
images with the same identity from the image gallery given a query text
description. In recent years, text-based person search has made good progress,
and state-of-the-art methods achieve superior performance by learning local
fine-grained correspondence between images and texts. However, the existing
methods explicitly extract image parts and text phrases from images and texts
by hand-crafted split or external tools and then conduct complex cross-modal
local matching. Moreover, the existing methods seldom consider the problem of
information inequality between modalities caused by image-specific information.
In this paper, we propose an efficient joint Information and Semantic Alignment
Network (ISANet) for text-based person search. Specifically, we first design an
image-specific information suppression module, which suppresses image
background and environmental factors by relation-guide localization and channel
attention filtration respectively. This design can effectively alleviate the
problem of information inequality and realize the information alignment between
images and texts. Secondly, we propose an implicit local alignment module to
adaptively aggregate image and text features to a set of modality-shared
semantic topic centers, and implicitly learn the local fine-grained
correspondence between images and texts without additional supervision
information and complex cross-modal interactions. Moreover, a global alignment
is introduced as a supplement to the local perspective. Extensive experiments
on multiple databases demonstrate the effectiveness and superiority of the
proposed ISANet.
- Abstract(参考訳): テキストベースの人物検索は,問合せ文が記載された画像ギャラリーから同一の同一性を持つ歩行者画像を検索することを目的とした課題である。
近年,テキストに基づく人物検索が進歩し,画像とテキストの局所的な微粒化対応を学習することで,最先端の手法が優れた性能を発揮する。
しかし,既存の手法では,手作りスプリットあるいは外部ツールを用いて画像やテキストから画像部分やテキスト句を明示的に抽出し,複雑なクロスモーダル局所マッチングを行う。
また,既存の手法では,画像固有情報によるモダリティ間の情報不平等の問題はほとんど考慮されていない。
本稿では,テキストに基づく人物検索のための効率的な情報・セマンティックアライメントネットワーク (ISANet) を提案する。
具体的には,画像固有の情報抑圧モジュールをまず設計し,画像の背景や環境要因を,関連経路の局在化とチャネル注意濾過によってそれぞれ抑制する。
この設計は、情報不平等の問題を効果的に軽減し、画像とテキスト間の情報整合性を実現する。
次に,画像とテキストを適応的にアライメントする暗黙的局所アライメントモジュールを提案する。このモジュールは,モダリティ共有のセマンティックトピックセンタの集合に画像とテキストをアライメントし,追加の監督情報や複雑なクロスモーダルインタラクションを伴わずに,画像とテキストの局所的詳細対応を暗黙的に学習する。
さらに,地域視点の補足としてグローバルアライメントを導入する。
複数のデータベースに対する大規模な実験は、提案したISANetの有効性と優位性を示している。
関連論文リスト
- TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。