論文の概要: Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval
- arxiv url: http://arxiv.org/abs/2509.13754v1
- Date: Wed, 17 Sep 2025 07:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.750116
- Title: Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval
- Title(参考訳): テキスト・ツー・イメージ人物検索のためのクロスモーダルフルモード微細アライメント
- Authors: Hao Yin, Xin Man, Feiyu Chen, Jie Shao, Heng Tao Shen,
- Abstract要約: TIPR (Text-to-Image Person Retrieval) は、与えられたテキストクエリに基づいて、最も関連性の高い人物画像を取得することを目的としている。
TIPRの鍵となる課題は、テキストと視覚のモダリティの効果的なアライメントを達成することである。
FMFA, クロスモーダルフルモーデファインファインファインファインアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.90229711181207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image Person Retrieval (TIPR) is a cross-modal matching task that aims to retrieve the most relevant person images based on a given text query. The key challenge in TIPR lies in achieving effective alignment between textual and visual modalities within a common latent space. To address this challenge, prior approaches incorporate attention mechanisms for implicit cross-modal local alignment. However, they lack the ability to verify whether all local features are correctly aligned. Moreover, existing methods primarily focus on hard negative samples during model updates, with the goal of refining distinctions between positive and negative pairs, often neglecting incorrectly matched positive pairs. To alleviate these issues, we propose FMFA, a cross-modal Full-Mode Fine-grained Alignment framework, which enhances global matching through explicit fine-grained alignment and existing implicit relational reasoning -- hence the term ``full-mode" -- without requiring additional supervision. Specifically, we design an Adaptive Similarity Distribution Matching (A-SDM) module to rectify unmatched positive sample pairs. A-SDM adaptively pulls the unmatched positive pairs closer in the joint embedding space, thereby achieving more precise global alignment. Additionally, we introduce an Explicit Fine-grained Alignment (EFA) module, which makes up for the lack of verification capability of implicit relational reasoning. EFA strengthens explicit cross-modal fine-grained interactions by sparsifying the similarity matrix and employs a hard coding method for local alignment. Our proposed method is evaluated on three public datasets, achieving state-of-the-art performance among all global matching methods. Our code is available at https://github.com/yinhao1102/FMFA.
- Abstract(参考訳): Text-to-Image Person Retrieval (TIPR) は、与えられたテキストクエリに基づいて最も関連性の高い人物画像を取得することを目的とした、モーダルなマッチングタスクである。
TIPRの鍵となる課題は、共通の潜在空間内のテキストと視覚のモダリティを効果的に整合させることである。
この課題に対処するために、事前のアプローチでは暗黙のモーダルな局所アライメントのための注意機構が組み込まれている。
しかし、すべてのローカル機能が正しく一致しているかどうかを検証できない。
さらに、既存の手法は主にモデル更新中の強陰性サンプルに焦点を当てており、正対と負対の区別を洗練することを目的としており、しばしば不一致の正対を無視する。
これらの問題を緩和するために, FMFA というクロスモーダルなフルモーデファインファインファインファインファインファイングアライメントフレームワークを提案する。これは, 明示的なきめ細かいアライメントと既存の暗黙的リレーショナル推論により, さらなる監督を必要とせず, グローバルなマッチングを強化するものだ。
具体的には, 適応類似性分布マッチング(A-SDM)モジュールを設計し, 正の正の正の対を補正する。
A-SDMは、整合しない正の対を結合埋め込み空間に近づけることで、より正確な大域的アライメントを実現する。
さらに、暗黙的関係推論の検証能力の欠如を補うExplicit Fine-fine Alignment (EFA)モジュールを導入する。
EFAは類似性行列をスパース化することで明示的なクロスモーダルきめ細かな相互作用を強化し、局所的なアライメントにハードコーディング法を用いる。
提案手法は3つの公開データセットを用いて評価し,全グローバルマッチング手法の最先端性能を実現する。
私たちのコードはhttps://github.com/yinhao1102/FMFAで公開されています。
関連論文リスト
- Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion [11.306367018981678]
本稿では,両方向ステップワイド・フィーチャーアライメントとフュージョンという,不整合な医用画像融合法を提案する。
特徴アライメントの観点では、BSFA-Fは双方向の段階的なアライメント変形場予測戦略を採用している。
複数のデータセットにまたがる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-11T02:56:23Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Seeking Similarities over Differences: Similarity-based Domain Alignment
for Adaptive Object Detection [86.98573522894961]
本研究では,Unsupervised Domain Adaptation (UDA) アルゴリズムが検出に使用するコンポーネントを一般化するフレームワークを提案する。
具体的には、最適な設計選択を生かした新しいUDAアルゴリズムViSGAを提案し、インスタンスレベルの特徴を集約する単純だが効果的な方法を提案する。
類似性に基づくグループ化と対角トレーニングの両方により、モデルでは、ゆるやかに整列されたドメインにまたがるすべてのインスタンスにマッチせざるを得ず、機能グループを粗い整列することに集中することが可能であることが示されています。
論文 参考訳(メタデータ) (2021-10-04T13:09:56Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。