論文の概要: Dual-Granularity Cross-Modal Identity Association for Weakly-Supervised Text-to-Person Image Matching
- arxiv url: http://arxiv.org/abs/2507.06744v1
- Date: Wed, 09 Jul 2025 10:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.560172
- Title: Dual-Granularity Cross-Modal Identity Association for Weakly-Supervised Text-to-Person Image Matching
- Title(参考訳): 弱教師付きテキスト・パーソン画像マッチングのためのデュアルグラニュリティ・クロスモーダル・アイデンティティ・アソシエーション
- Authors: Yafei Zhang, Yongle Shang, Huafeng Li,
- Abstract要約: 弱教師付きテキスト対人画像マッチングは、大規模な手動ラベル付きサンプルへのモデル依存を減らすための重要なアプローチである。
本稿では,複雑な一対多の同一性関係を予測するために,二重粒度同一性関連機構を提案する。
実験結果から,提案手法はクロスモーダルマッチングの精度を大幅に向上させることが示された。
- 参考スコア(独自算出の注目度): 7.1469465755934785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised text-to-person image matching, as a crucial approach to reducing models' reliance on large-scale manually labeled samples, holds significant research value. However, existing methods struggle to predict complex one-to-many identity relationships, severely limiting performance improvements. To address this challenge, we propose a local-and-global dual-granularity identity association mechanism. Specifically, at the local level, we explicitly establish cross-modal identity relationships within a batch, reinforcing identity constraints across different modalities and enabling the model to better capture subtle differences and correlations. At the global level, we construct a dynamic cross-modal identity association network with the visual modality as the anchor and introduce a confidence-based dynamic adjustment mechanism, effectively enhancing the model's ability to identify weakly associated samples while improving overall sensitivity. Additionally, we propose an information-asymmetric sample pair construction method combined with consistency learning to tackle hard sample mining and enhance model robustness. Experimental results demonstrate that the proposed method substantially boosts cross-modal matching accuracy, providing an efficient and practical solution for text-to-person image matching.
- Abstract(参考訳): 大規模な手動ラベル付きサンプルへの依存を減らすための重要なアプローチとして、テキスト対人物画像マッチングが弱く管理されているため、かなりの研究価値がある。
しかし、既存の手法は複雑な1対多のアイデンティティ関係を予測するのに苦労し、パフォーマンスを著しく制限する。
この課題に対処するために,局所的・言語的二重粒度識別機構を提案する。
具体的には、局所レベルでは、バッチ内でのクロスモーダルなアイデンティティ関係を明確に確立し、異なるモーダル間でのアイデンティティ制約を強化し、微妙な相違や相関をよりよく捉えることができる。
グローバルレベルでは、視覚的モダリティをアンカーとする動的クロスモーダル・アイデンティティ・アソシエーションネットワークを構築し、信頼性に基づく動的調整機構を導入し、全体的な感度を改善しつつ、弱い関連サンプルを識別する能力を効果的に強化する。
さらに,情報非対称なサンプルペア構築手法と整合学習を組み合わせることで,ハードサンプルマイニングに取り組み,モデルロバスト性を向上する手法を提案する。
実験結果から,提案手法はモーダル間マッチングの精度を大幅に向上させ,テキスト対人画像マッチングのための効率的かつ実用的なソリューションを提供することが示された。
関連論文リスト
- Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Mix-Modality Person Re-Identification: A New and Practical Paradigm [20.01921944345468]
より実用的な混合モダリティ検索パラダイムを提案する。
既存の可視赤外人物再識別法(VI-ReID)は,両モード相互検索のパラダイムにおいていくつかの成果を上げている。
本稿では,Mix-Modality person re-identification (MM-ReID)タスクを提案する。
論文 参考訳(メタデータ) (2024-12-06T02:19:57Z) - Image-Feature Weak-to-Strong Consistency: An Enhanced Paradigm for Semi-Supervised Learning [5.0823084858349485]
画像レベルの弱強一貫性は半教師あり学習(SSL)の主要なパラダイムである
拡張空間を拡大するために,様々な強度と形状を持つ特徴レベルの摂動を導入する。
本報告では, 素質と課題を識別するための信頼度に基づく識別戦略を提案する。
論文 参考訳(メタデータ) (2024-08-08T13:19:25Z) - Efficient Bilateral Cross-Modality Cluster Matching for Unsupervised Visible-Infrared Person ReID [56.573905143954015]
本稿では, クラスタ間マッチングによるモダリティギャップを低減するための, クラスタマッチングに基づく新たな学習フレームワークを提案する。
このような監視信号の下では、クラスタレベルで特徴を協調的に整列させるために、モダリティ・特定・モダリティ・非依存(MSMA)コントラスト学習フレームワークが提案されている。
公開SYSU-MM01とRegDBデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-22T03:27:46Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Unsupervised Person Re-identification via Simultaneous Clustering and
Consistency Learning [22.008371113710137]
静止画からの視覚的一貫性とトレーニングプロセス中の時間的一貫性を学習することにより、教師なし再IDのプリテキストタスクを設計します。
2つのエンコードされたビューを同じクラスタにグループ化し、ビュー間の視覚的一貫性を高めることで、モデルを最適化する。
論文 参考訳(メタデータ) (2021-04-01T02:10:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。