論文の概要: CLIP-DFGS: A Hard Sample Mining Method for CLIP in Generalizable Person Re-Identification
- arxiv url: http://arxiv.org/abs/2410.11255v1
- Date: Tue, 15 Oct 2024 04:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:21.426869
- Title: CLIP-DFGS: A Hard Sample Mining Method for CLIP in Generalizable Person Re-Identification
- Title(参考訳): CLIP-DFGS: 一般化可能な人物再同定におけるCLIPのハードサンプルマイニング法
- Authors: Huazhong Zhao, Lei Qi, Xin Geng,
- Abstract要約: 深度優先探索に基づくDFGS (Depth-First Graph Sampler) と呼ばれるハードサンプルマイニング手法を提案する。
CLIPの強力なクロスモーダル学習機能を活用することで,DFGS法を用いて,難解なサンプルを抽出し,識別困難度の高いミニバッチを作成することを目的とする。
本研究は,DFGSの有効性を検証し,他の手法よりも大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 42.429118831928214
- License:
- Abstract: Recent advancements in pre-trained vision-language models like CLIP have shown promise in person re-identification (ReID) applications. However, their performance in generalizable person re-identification tasks remains suboptimal. The large-scale and diverse image-text pairs used in CLIP's pre-training may lead to a lack or insufficiency of certain fine-grained features. In light of these challenges, we propose a hard sample mining method called DFGS (Depth-First Graph Sampler), based on depth-first search, designed to offer sufficiently challenging samples to enhance CLIP's ability to extract fine-grained features. DFGS can be applied to both the image encoder and the text encoder in CLIP. By leveraging the powerful cross-modal learning capabilities of CLIP, we aim to apply our DFGS method to extract challenging samples and form mini-batches with high discriminative difficulty, providing the image model with more efficient and challenging samples that are difficult to distinguish, thereby enhancing the model's ability to differentiate between individuals. Our results demonstrate significant improvements over other methods, confirming the effectiveness of DFGS in providing challenging samples that enhance CLIP's performance in generalizable person re-identification.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデルの最近の進歩は、人物再識別(ReID)アプリケーションにおいて有望であることを示している。
しかし、一般化可能な人物再識別タスクにおけるそれらのパフォーマンスは、依然として準最適である。
CLIPの事前トレーニングで使用される大規模で多様な画像テキストペアは、特定のきめ細かい機能の欠如または不足につながる可能性がある。
これらの課題を踏まえ,深度優先探索に基づくDFGS (Depth-First Graph Sampler) と呼ばれるハードサンプルマイニング手法を提案する。
DFGSはCLIPのイメージエンコーダとテキストエンコーダの両方に適用できる。
CLIPの強力なクロスモーダル学習能力を生かして、DFGS法を用いて、難易度の高いサンプルを抽出し、識別困難度の高いミニバッチを作成することを目的として、画像モデルをより効率的かつ識別が難しいサンプルで提供し、個人を識別する能力を高めることを目的とする。
以上の結果から, DFGSがCLIPの性能向上に有効であることを示すとともに, DFGSの有効性を確認した。
関連論文リスト
- Exploring Stronger Transformer Representation Learning for Occluded Person Re-Identification [2.552131151698595]
我々はトランスフォーマーに基づく人物識別フレームワークであるSSSC-TransReIDを組み合わせた新しい自己監督・監督手法を提案した。
我々は、ネガティブなサンプルや追加の事前学習なしに、人物の再識別のための特徴表現を強化することができる自己教師付きコントラスト学習ブランチを設計した。
提案モデルでは, 平均平均精度(mAP) とランク1の精度において, 最先端のReID手法よりも優れたRe-ID性能が得られ, 高いマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-10-21T03:17:25Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations [19.800907485589402]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Deep Boosting Multi-Modal Ensemble Face Recognition with Sample-Level
Weighting [11.39204323420108]
深層畳み込みニューラルネットワークは顔認識において顕著な成功を収めた。
現在のトレーニングベンチマークは、不均衡な品質分布を示している。
これは、訓練中に不足しているため、ハードサンプルの一般化に問題を引き起こす。
有名なAdaBoostにインスパイアされた本研究では、FR損失に異なるサンプルの重要性を組み込むためのサンプルレベルの重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T01:44:54Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Feature Super-Resolution Based Facial Expression Recognition for
Multi-scale Low-Resolution Faces [7.634398926381845]
超解像法はしばしば低分解能画像の高精細化に使用されるが、FERタスクの性能は極低分解能画像では制限される。
本研究では,物体検出のための特徴的超解像法に触発されて,頑健な表情認識のための新たな生成逆ネットワークに基づく超解像法を提案する。
論文 参考訳(メタデータ) (2020-04-05T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。