論文の概要: Try Harder: Hard Sample Generation and Learning for Clothes-Changing Person Re-ID
- arxiv url: http://arxiv.org/abs/2507.11119v1
- Date: Tue, 15 Jul 2025 09:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.051645
- Title: Try Harder: Hard Sample Generation and Learning for Clothes-Changing Person Re-ID
- Title(参考訳): Try Harder: 衣服交換者Re-IDのためのハードサンプル生成と学習
- Authors: Hankun Liu, Yujian Zhao, Guanglin Niu,
- Abstract要約: ハードサンプルは、人物の再識別(ReID)タスクにおいて重要な課題となる。
それら固有の曖昧さや類似性は、明示的な定義の欠如と相まって、根本的なボトルネックとなっている。
本稿では,新しいマルチモーダル型ハードサンプル生成学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.256800812615341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hard samples pose a significant challenge in person re-identification (ReID) tasks, particularly in clothing-changing person Re-ID (CC-ReID). Their inherent ambiguity or similarity, coupled with the lack of explicit definitions, makes them a fundamental bottleneck. These issues not only limit the design of targeted learning strategies but also diminish the model's robustness under clothing or viewpoint changes. In this paper, we propose a novel multimodal-guided Hard Sample Generation and Learning (HSGL) framework, which is the first effort to unify textual and visual modalities to explicitly define, generate, and optimize hard samples within a unified paradigm. HSGL comprises two core components: (1) Dual-Granularity Hard Sample Generation (DGHSG), which leverages multimodal cues to synthesize semantically consistent samples, including both coarse- and fine-grained hard positives and negatives for effectively increasing the hardness and diversity of the training data. (2) Hard Sample Adaptive Learning (HSAL), which introduces a hardness-aware optimization strategy that adjusts feature distances based on textual semantic labels, encouraging the separation of hard positives and drawing hard negatives closer in the embedding space to enhance the model's discriminative capability and robustness to hard samples. Extensive experiments on multiple CC-ReID benchmarks demonstrate the effectiveness of our approach and highlight the potential of multimodal-guided hard sample generation and learning for robust CC-ReID. Notably, HSAL significantly accelerates the convergence of the targeted learning procedure and achieves state-of-the-art performance on both PRCC and LTCC datasets. The code is available at https://github.com/undooo/TryHarder-ACMMM25.
- Abstract(参考訳): ハードサンプルは、特に衣服の変化したRe-ID(CC-ReID)において、人の再識別(ReID)タスクにおいて重要な課題となる。
それら固有の曖昧さや類似性は、明示的な定義の欠如と相まって、根本的なボトルネックとなっている。
これらの問題は、対象とする学習戦略の設計を制限するだけでなく、衣服や視点の変化によるモデルの堅牢性も低下させる。
本稿では,統一パラダイム内でハードサンプルを明示的に定義,生成,最適化するために,テキストおよび視覚的モダリティを統一する,新しいマルチモーダル誘導型ハードサンプル生成学習(HSGL)フレームワークを提案する。
HSGLは,(1)DGHSG(Dual-Granularity Hard Sample Generation)の2つのコア成分から構成される。DGHSG(Dual-Granularity Hard Sample Generation)は,トレーニングデータの硬さと多様性を効果的に増大させるために,粗さと細粒度の硬さの両方を含む,意味的に一貫したサンプルを合成する。
2) ハードサンプル適応学習(HSAL, Hard Sample Adaptive Learning)は, テキストのセマンティックラベルに基づいて特徴距離を調整し, ハード陽性の分離を奨励し, 埋め込み空間に強陰性を引き寄せ, モデルの識別能力を向上し, ハードサンプルに対する堅牢性を向上する。
複数のCC-ReIDベンチマークにおいて,本手法の有効性を実証し,堅牢なCC-ReIDのためのマルチモーダル誘導型ハードサンプル生成と学習の可能性を強調した。
特に、HSALはターゲットとなる学習手順の収束を著しく加速し、PRCCデータセットとLTCCデータセットの両方で最先端のパフォーマンスを達成する。
コードはhttps://github.com/undooo/TryHarder-ACMMM25で公開されている。
関連論文リスト
- Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning [43.12759195699103]
大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を達成しているが、非効率なサンプル利用と非フレキシブルな難易度サンプル処理によって後処理が制限されている。
本稿では,2つの重要なイノベーションを持つ新しいフレームワークであるCustomized Curriculum Learning (CCL)を提案する。
まず,各モデルの個々の能力に基づいてカリキュラムデータセットをカスタマイズする,モデル適応的難易度定義を導入する。
第2に,戦略的なヒントによって標本の難易度を動的に低減し,性能を低下させるような挑戦的な試料を効果的に活用する「ガイド・プロンプティング」を開発した。
論文 参考訳(メタデータ) (2025-06-04T15:31:46Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - CLIP-DFGS: A Hard Sample Mining Method for CLIP in Generalizable Person Re-Identification [42.429118831928214]
深度優先探索に基づくDFGS (Depth-First Graph Sampler) と呼ばれるハードサンプルマイニング手法を提案する。
CLIPの強力なクロスモーダル学習機能を活用することで,DFGS法を用いて,難解なサンプルを抽出し,識別困難度の高いミニバッチを作成することを目的とする。
本研究は,DFGSの有効性を検証し,他の手法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-10-15T04:25:58Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - FakeCLR: Exploring Contrastive Learning for Solving Latent Discontinuity
in Data-Efficient GANs [24.18718734850797]
Data-Efficient GAN(DE-GAN)は、限られたトレーニングデータで生成モデルを学習することを目的としている。
対照的な学習は、DE-GANの合成品質を高める大きな可能性を示している。
偽のサンプルに対してのみ対照的な学習を行うFakeCLRを提案する。
論文 参考訳(メタデータ) (2022-07-18T14:23:38Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Hard Samples Rectification for Unsupervised Cross-domain Person
Re-identification [29.293741858274146]
本稿では,従来のクラスタリング手法の弱点を解消するハードサンプル整形学習手法を提案する。
我々のHSRには、異なる視点(強正)の人物を認識するためのカメラ間マイニング法と、異なる人物を識別するが、類似した外観(強陰性)の人物を識別する部分ベース均質法がある。
これら2つのハードケースを修正することにより、re-IDモデルは効果的に学習し、2つの大規模ベンチマークで有望な結果を達成することができる。
論文 参考訳(メタデータ) (2021-06-14T07:38:42Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。