論文の概要: Cross-Modal Adaptive Dual Association for Text-to-Image Person Retrieval
- arxiv url: http://arxiv.org/abs/2312.01745v1
- Date: Mon, 4 Dec 2023 09:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:39:18.118413
- Title: Cross-Modal Adaptive Dual Association for Text-to-Image Person Retrieval
- Title(参考訳): テキスト対画像検索のための相互適応型デュアルアソシエーション
- Authors: Dixuan Lin, Yixing Peng, Jingke Meng, Wei-Shi Zheng
- Abstract要約: 画像・テキスト・アソシエーションとテキスト・ツー・イメージ・アソシエーションの相違について述べる。
CADA:クロスモーダル・アダプティブ・デュアル・アソシエーション(CADA: Cross-Modal Adaptive Dual Association)を提案する。
- 参考スコア(独自算出の注目度): 32.793170116202475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image person re-identification (ReID) aims to retrieve images of a
person based on a given textual description. The key challenge is to learn the
relations between detailed information from visual and textual modalities.
Existing works focus on learning a latent space to narrow the modality gap and
further build local correspondences between two modalities. However, these
methods assume that image-to-text and text-to-image associations are
modality-agnostic, resulting in suboptimal associations. In this work, we show
the discrepancy between image-to-text association and text-to-image association
and propose CADA: Cross-Modal Adaptive Dual Association that finely builds
bidirectional image-text detailed associations. Our approach features a
decoder-based adaptive dual association module that enables full interaction
between visual and textual modalities, allowing for bidirectional and adaptive
cross-modal correspondence associations. Specifically, the paper proposes a
bidirectional association mechanism: Association of text Tokens to image
Patches (ATP) and Association of image Regions to text Attributes (ARA). We
adaptively model the ATP based on the fact that aggregating cross-modal
features based on mistaken associations will lead to feature distortion. For
modeling the ARA, since the attributes are typically the first distinguishing
cues of a person, we propose to explore the attribute-level association by
predicting the masked text phrase using the related image region. Finally, we
learn the dual associations between texts and images, and the experimental
results demonstrate the superiority of our dual formulation. Codes will be made
publicly available.
- Abstract(参考訳): ReID(text-to-image person re-identification)は、所定のテキスト記述に基づいて人物の画像を取得することを目的としている。
重要な課題は、視覚とテキストのモダリティから詳細な情報の関係を学ぶことである。
既存の研究は、モダリティギャップを狭め、2つのモダリティ間の局所対応を構築するための潜在空間の学習に焦点を当てている。
しかし、これらの手法は、画像とテキストと画像の関連性はモダリティと無関係であると仮定し、最適でない関連性をもたらす。
本稿では、画像とテキストと画像の関連性の違いを示し、双方向画像の詳細な関連性を微妙に構築するCADA: Cross-Modal Adaptive Dual Associationを提案する。
本手法は,視覚とテキスト間の完全なインタラクションを可能にするデコーダに基づく適応的二重結合モジュールを特徴とする。
具体的には,画像パッチへのテキストトークンの関連付け (atp) とテキスト属性への画像領域の関連付け (ara) という双方向の関連付け機構を提案する。
誤結合に基づくクロスモーダル特徴の集約が特徴的歪みを生じさせるという事実に基づいて,atpを適応的にモデル化する。
ARAをモデル化するためには、属性は典型的に人の最初の識別方法であるため、関連する画像領域を用いてマスク付きテキストフレーズを予測することにより属性レベルの関連性を探究する。
最後に,テキストと画像の双対関係を学習し,この双対定式化が優れていることを示す実験結果を得た。
コードは公開される予定だ。
関連論文リスト
- Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。
明示的な関係は、参照画像と補完テキストターゲット画像に関連する。
本稿では,合成画像検索のための新たな枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-05T12:16:14Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - SimAN: Exploring Self-Supervised Representation Learning of Scene Text
via Similarity-Aware Normalization [66.35116147275568]
自己指導型表現学習は、現場テキスト認識コミュニティからかなりの注目を集めている。
表現学習スキームを生成的手法で定式化することで,この問題に対処する。
そこで我々は,異なるパターンを識別し,対応するスタイルを誘導パッチから整列するSimANモジュールを提案する。
論文 参考訳(メタデータ) (2022-03-20T08:43:10Z) - Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。
従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。
イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文 参考訳(メタデータ) (2022-03-10T12:56:10Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Structured Multi-modal Feature Embedding and Alignment for
Image-Sentence Retrieval [12.050958976545914]
現在の最先端画像文検索手法は、視覚的テクスチャの断片を暗黙的に整列させる。
画像文検索のための構造的マルチモーダル特徴埋め込みとアライメントモデルを提案する。
特に、ビジュアルコンテキスト対応構造化木エンコーダ(VCS-Tree)とテキストコンテキスト対応構造化木エンコーダ(TCS-Tree)を共有ラベルで構築することにより、視覚的およびテキスト的フラグメントの関係をモデル化する。
論文 参考訳(メタデータ) (2021-08-05T07:24:54Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。