論文の概要: Asymmetric Cross-Scale Alignment for Text-Based Person Search
- arxiv url: http://arxiv.org/abs/2212.11958v1
- Date: Sat, 26 Nov 2022 08:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 03:19:01.255817
- Title: Asymmetric Cross-Scale Alignment for Text-Based Person Search
- Title(参考訳): テキストに基づく人物探索のための非対称クロススケールアライメント
- Authors: Zhong Ji, Junhua Hu, Deyin Liu, Lin Yuanbo Wu, Ye zhao
- Abstract要約: テキストに基づく人物探索 (TBPS) は知的監視において重要な意味を持つ歩行者画像の検索を目的としている。
このタスクを実装するには、画像ドメインとテキストドメインの両方からマルチスケールの機能を抽出し、その後、クロスモーダルアライメントを実行する必要がある。
マルチスケール表現を抽出し、非対称なクロススケールアライメント(ACSA)を行い、2つのモードを正確に整列するトランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 15.618984100653348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based person search (TBPS) is of significant importance in intelligent
surveillance, which aims to retrieve pedestrian images with high semantic
relevance to a given text description. This retrieval task is characterized
with both modal heterogeneity and fine-grained matching. To implement this
task, one needs to extract multi-scale features from both image and text
domains, and then perform the cross-modal alignment. However, most existing
approaches only consider the alignment confined at their individual scales,
e.g., an image-sentence or a region-phrase scale. Such a strategy adopts the
presumable alignment in feature extraction, while overlooking the cross-scale
alignment, e.g., image-phrase. In this paper, we present a transformer-based
model to extract multi-scale representations, and perform Asymmetric
Cross-Scale Alignment (ACSA) to precisely align the two modalities.
Specifically, ACSA consists of a global-level alignment module and an
asymmetric cross-attention module, where the former aligns an image and texts
on a global scale, and the latter applies the cross-attention mechanism to
dynamically align the cross-modal entities in region/image-phrase scales.
Extensive experiments on two benchmark datasets CUHK-PEDES and RSTPReid
demonstrate the effectiveness of our approach. Codes are available at
\href{url}{https://github.com/mul-hjh/ACSA}.
- Abstract(参考訳): テキストに基づく人物探索 (TBPS) は知的監視において重要な意味を持つ歩行者画像の検索を目的としている。
この検索タスクは、モーダル不均一性ときめ細かいマッチングの両方で特徴付けられる。
このタスクを実装するには、画像ドメインとテキストドメインの両方からマルチスケール機能を抽出し、クロスモーダルアライメントを実行する必要がある。
しかし、既存のアプローチのほとんどは個々のスケールに制限されたアライメントのみを考慮に入れている。
このような戦略は特徴抽出における推定可能なアライメントを採用し、画像フレーズのような大規模アライメントを見渡す。
本稿では,マルチスケール表現を抽出し,非対称クロススケールアライメント(acsa)を行い,この2つのモダリティを正確に整列するトランスフォーマティブモデルを提案する。
特に、ACSAはグローバルレベルのアライメントモジュールと非対称なクロスアテンションモジュールから構成されており、前者はグローバルスケールで画像とテキストをアライメントし、後者はクロスアテンション機構を適用して、クロスアテンションエンティティを領域/イメージ・フレーズスケールで動的にアライメントする。
2つのベンチマークデータセット CUHK-PEDES と RSTPReid の大規模な実験により,提案手法の有効性が示された。
コードは \href{url}{https://github.com/mul-hjh/acsa} で入手できる。
関連論文リスト
- Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval [37.775529830620016]
リモートセンシング画像-テキスト検索(RSITR)は、リモートセンシング(RS)ドメインにおける知識サービスとデータマイニングにおいて重要な機能である。
現在のマルチスケールRSITRアプローチは、通常、マルチスケールの融合画像特徴とテキスト特徴とを一致させるが、異なるスケールで画像とテキストのペアを別々に並べて見落としている。
本稿では,この制限を克服するために,新しいマルチスケールアライメント(MSA)手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T10:19:11Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Similarity Reasoning and Filtration for Image-Text Matching [85.68854427456249]
画像-テキストマッチングのための類似度グラフ推論と注意フィルタリングネットワークを提案する。
類似性グラフ推論(SGR)モジュールを1つのグラフ畳み込みニューラルネットワークに頼り、局所的および大域的アライメントの両方と関係性を考慮した類似性を推論する。
Flickr30K と MSCOCO のデータセット上での最先端性能を実現する上で,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-01-05T06:29:35Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using
Transformer Encoders [14.634046503477979]
本稿ではTransformer Reasoning and Alignment Network(TERAN)という新しいアプローチを提案する。
TERANは、画像と文の基礎となるコンポーネント間のきめ細かい一致を強制する。
MS-COCO 1Kテストセットでは,画像と文検索タスクでそれぞれ5.7%と3.5%の改善が得られた。
論文 参考訳(メタデータ) (2020-08-12T11:02:40Z) - Graph Optimal Transport for Cross-Domain Alignment [121.80313648519203]
クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
論文 参考訳(メタデータ) (2020-06-26T01:14:23Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。