Fugu-MT 論文翻訳(概要): Cross-Modal Adaptive Dual Association for Text-to-Image Person Retrieval

論文の概要: Cross-Modal Adaptive Dual Association for Text-to-Image Person Retrieval

arxiv url: http://arxiv.org/abs/2312.01745v1
Date: Mon, 4 Dec 2023 09:10:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 15:39:18.118413
Title: Cross-Modal Adaptive Dual Association for Text-to-Image Person Retrieval
Title（参考訳）: テキスト対画像検索のための相互適応型デュアルアソシエーション
Authors: Dixuan Lin, Yixing Peng, Jingke Meng, Wei-Shi Zheng
Abstract要約: 画像・テキスト・アソシエーションとテキスト・ツー・イメージ・アソシエーションの相違について述べる。 CADA:クロスモーダル・アダプティブ・デュアル・アソシエーション(CADA: Cross-Modal Adaptive Dual Association)を提案する。
参考スコア（独自算出の注目度）: 32.793170116202475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image person re-identification (ReID) aims to retrieve images of a person based on a given textual description. The key challenge is to learn the relations between detailed information from visual and textual modalities. Existing works focus on learning a latent space to narrow the modality gap and further build local correspondences between two modalities. However, these methods assume that image-to-text and text-to-image associations are modality-agnostic, resulting in suboptimal associations. In this work, we show the discrepancy between image-to-text association and text-to-image association and propose CADA: Cross-Modal Adaptive Dual Association that finely builds bidirectional image-text detailed associations. Our approach features a decoder-based adaptive dual association module that enables full interaction between visual and textual modalities, allowing for bidirectional and adaptive cross-modal correspondence associations. Specifically, the paper proposes a bidirectional association mechanism: Association of text Tokens to image Patches (ATP) and Association of image Regions to text Attributes (ARA). We adaptively model the ATP based on the fact that aggregating cross-modal features based on mistaken associations will lead to feature distortion. For modeling the ARA, since the attributes are typically the first distinguishing cues of a person, we propose to explore the attribute-level association by predicting the masked text phrase using the related image region. Finally, we learn the dual associations between texts and images, and the experimental results demonstrate the superiority of our dual formulation. Codes will be made publicly available.
Abstract（参考訳）: ReID(text-to-image person re-identification)は、所定のテキスト記述に基づいて人物の画像を取得することを目的としている。重要な課題は、視覚とテキストのモダリティから詳細な情報の関係を学ぶことである。既存の研究は、モダリティギャップを狭め、2つのモダリティ間の局所対応を構築するための潜在空間の学習に焦点を当てている。しかし、これらの手法は、画像とテキストと画像の関連性はモダリティと無関係であると仮定し、最適でない関連性をもたらす。本稿では、画像とテキストと画像の関連性の違いを示し、双方向画像の詳細な関連性を微妙に構築するCADA: Cross-Modal Adaptive Dual Associationを提案する。本手法は,視覚とテキスト間の完全なインタラクションを可能にするデコーダに基づく適応的二重結合モジュールを特徴とする。具体的には,画像パッチへのテキストトークンの関連付け (atp) とテキスト属性への画像領域の関連付け (ara) という双方向の関連付け機構を提案する。誤結合に基づくクロスモーダル特徴の集約が特徴的歪みを生じさせるという事実に基づいて,atpを適応的にモデル化する。 ARAをモデル化するためには、属性は典型的に人の最初の識別方法であるため、関連する画像領域を用いてマスク付きテキストフレーズを予測することにより属性レベルの関連性を探究する。最後に,テキストと画像の双対関係を学習し,この双対定式化が優れていることを示す実験結果を得た。コードは公開される予定だ。

関連論文リスト

Descriptive Image-Text Matching with Graded Contextual Similarity [41.10869519062159]
画像とテキストの文脈的類似度を段階的に学習するために,DITMと呼ばれる記述的画像テキストマッチングを提案する。各文の記述性スコアを累積項の周波数逆文書頻度(TF-IDF)で定式化し、両者の相似性をバランスさせる。本手法は文記述性を利用して,2つの重要な方法で堅牢な画像テキストマッチングを学習する。
論文参考訳（メタデータ） (2025-05-15T06:21:00Z)
Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T14:27:30Z)
EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [38.30565103892611]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文参考訳（メタデータ） (2024-10-23T12:12:56Z)
Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文参考訳（メタデータ） (2024-06-17T17:56:01Z)
Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文参考訳（メタデータ） (2024-04-21T20:26:46Z)
Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文参考訳（メタデータ） (2023-10-09T07:31:44Z)
Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。明示的な関係は、参照画像と補完テキストターゲット画像に関連する。本稿では,合成画像検索のための新たな枠組みを提案する。
論文参考訳（メタデータ） (2023-09-05T12:16:14Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文参考訳（メタデータ） (2023-03-22T12:11:59Z)
Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-07-29T01:21:54Z)
Two-stream Hierarchical Similarity Reasoning for Image-text Matching [66.43071159630006]
文脈情報を自動的に抽出する階層的類似性推論モジュールを提案する。従来のアプローチでは、シングルストリームの類似性アライメントを学習することしか検討されていなかった。イメージ・ツー・テキスト・レベルの類似性計算とテキスト・ツー・テキスト・レベルの類似性計算に画像・テキストマッチングを分解する2ストリームアーキテクチャを開発した。
論文参考訳（メタデータ） (2022-03-10T12:56:10Z)
Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文参考訳（メタデータ） (2020-07-17T10:22:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。