論文の概要: Prototype-guided Cross-modal Completion and Alignment for Incomplete
Text-based Person Re-identification
- arxiv url: http://arxiv.org/abs/2309.17104v2
- Date: Tue, 3 Oct 2023 01:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 10:55:36.294615
- Title: Prototype-guided Cross-modal Completion and Alignment for Incomplete
Text-based Person Re-identification
- Title(参考訳): 不完全テキストに基づく人物識別のためのプロトタイプ誘導型クロスモーダル補完とアライメント
- Authors: Tiantian Gong, Guodong Du, Junsheng Wang, Yongkang Ding, Liyan Zhang
- Abstract要約: 従来のテキストベースの人物識別(ReID)技術は、完全にマッチしたマルチモーダルデータに大きく依存している。
クロスモーダルデータの収集と処理の間、必然的なデータ不足と破損のため、不完全なデータ問題は、通常、現実世界のアプリケーションで解決される。
不完全なテキストベースReIDタスクと呼ばれるより実践的なタスクは、人物画像やテキスト記述が完全に一致せず、部分的に欠落したモダリティデータを含んでいる、と考える。
- 参考スコア(独自算出の注目度): 5.607917328636865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional text-based person re-identification (ReID) techniques heavily
rely on fully matched multi-modal data, which is an ideal scenario. However,
due to inevitable data missing and corruption during the collection and
processing of cross-modal data, the incomplete data issue is usually met in
real-world applications. Therefore, we consider a more practical task termed
the incomplete text-based ReID task, where person images and text descriptions
are not completely matched and contain partially missing modality data. To this
end, we propose a novel Prototype-guided Cross-modal Completion and Alignment
(PCCA) framework to handle the aforementioned issues for incomplete text-based
ReID. Specifically, we cannot directly retrieve person images based on a text
query on missing modality data. Therefore, we propose the cross-modal nearest
neighbor construction strategy for missing data by computing the cross-modal
similarity between existing images and texts, which provides key guidance for
the completion of missing modal features. Furthermore, to efficiently complete
the missing modal features, we construct the relation graphs with the
aforementioned cross-modal nearest neighbor sets of missing modal data and the
corresponding prototypes, which can further enhance the generated missing modal
features. Additionally, for tighter fine-grained alignment between images and
texts, we raise a prototype-aware cross-modal alignment loss that can
effectively reduce the modality heterogeneity gap for better fine-grained
alignment in common space. Extensive experimental results on several benchmarks
with different missing ratios amply demonstrate that our method can
consistently outperform state-of-the-art text-image ReID approaches.
- Abstract(参考訳): 従来のテキストベースの人物識別(ReID)技術は、理想的なシナリオである完全一致するマルチモーダルデータに大きく依存している。
しかしながら、クロスモーダルデータの収集と処理の間、避けられないデータの欠落と腐敗のため、不完全なデータ問題は、通常現実世界のアプリケーションで発生する。
そこで本研究では,不完全テキストベースreidタスクと呼ばれる,人物画像とテキスト記述が完全に一致せず,部分的に欠落したモダリティデータを含む,より実用的なタスクを考える。
そこで本稿では,不完全なテキストベースReIDの問題を処理するための新しいPCCA(Prototype-guided Cross-modal Completion and Alignment)フレームワークを提案する。
具体的には、欠落したモダリティデータに基づくテキストクエリに基づいて人物画像を直接検索することはできない。
そこで本研究では、既存の画像とテキストの相互類似性を計算し、欠落した画像の特徴を完遂するための重要なガイダンスを提供するクロスモーダル近傍構築戦略を提案する。
さらに, 欠落したモーダル特徴を効率的に補完するために, 上記欠落モーダルデータの隣接部分集合と対応するプロトタイプとの関連グラフを構築し, 生成された欠落モーダル特徴をさらに強化する。
さらに,画像とテキストの細粒度アライメントをより密にするため,共用空間における細粒度アライメントを改善するために,モダリティの不均一性ギャップを効果的に低減できるプロトタイプアライメント損失を発生させる。
異なる比率の異なる複数のベンチマークによる実験結果から,本手法が最先端のテキスト画像ReID手法より一貫して優れていることが示された。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Enhancing Cross-Modal Fine-Tuning with Gradually Intermediate Modality Generation [12.877256055338517]
本稿では,クロスモーダルファインチューニングを強化するために,エンドツーエンドのPaReを提案する。
PaReは、大規模な事前訓練されたモデルを、様々なターゲットモダリティに転送することを目的としている。
ハンドデザイン、汎用、タスク特化、最先端のクロスモーダル微調整アプローチと比較すると、PaReは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-13T11:12:46Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Cross-Modal Attribute Insertions for Assessing the Robustness of
Vision-and-Language Learning [9.949354222717773]
クロスモーダル属性挿入は、視覚・言語データに対する現実的な摂動戦略である。
モーダル・インサートを用いた入力テキストの増大は,テキスト・ツー・モーダル検索やモーダル・エンターメントにおける最先端のアプローチに悪影響を及ぼすことが判明した。
クラウドソースアノテーションは、クロスモーダルな挿入がマルチモーダルデータの品質向上につながることを示している。
論文 参考訳(メタデータ) (2023-06-19T17:00:03Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。