Fugu-MT 論文翻訳(概要): CLIP-DFGS: A Hard Sample Mining Method for CLIP in Generalizable Person Re-Identification

論文の概要: CLIP-DFGS: A Hard Sample Mining Method for CLIP in Generalizable Person Re-Identification

arxiv url: http://arxiv.org/abs/2410.11255v1
Date: Tue, 15 Oct 2024 04:25:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.60926
Title: CLIP-DFGS: A Hard Sample Mining Method for CLIP in Generalizable Person Re-Identification
Title（参考訳）: CLIP-DFGS: 一般化可能な人物再同定におけるCLIPのハードサンプルマイニング法
Authors: Huazhong Zhao, Lei Qi, Xin Geng,
Abstract要約: 深度優先探索に基づくDFGS (Depth-First Graph Sampler) と呼ばれるハードサンプルマイニング手法を提案する。 CLIPの強力なクロスモーダル学習機能を活用することで,DFGS法を用いて,難解なサンプルを抽出し,識別困難度の高いミニバッチを作成することを目的とする。本研究は,DFGSの有効性を検証し,他の手法よりも大幅に改善したことを示す。
参考スコア（独自算出の注目度）: 42.429118831928214
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in pre-trained vision-language models like CLIP have shown promise in person re-identification (ReID) applications. However, their performance in generalizable person re-identification tasks remains suboptimal. The large-scale and diverse image-text pairs used in CLIP's pre-training may lead to a lack or insufficiency of certain fine-grained features. In light of these challenges, we propose a hard sample mining method called DFGS (Depth-First Graph Sampler), based on depth-first search, designed to offer sufficiently challenging samples to enhance CLIP's ability to extract fine-grained features. DFGS can be applied to both the image encoder and the text encoder in CLIP. By leveraging the powerful cross-modal learning capabilities of CLIP, we aim to apply our DFGS method to extract challenging samples and form mini-batches with high discriminative difficulty, providing the image model with more efficient and challenging samples that are difficult to distinguish, thereby enhancing the model's ability to differentiate between individuals. Our results demonstrate significant improvements over other methods, confirming the effectiveness of DFGS in providing challenging samples that enhance CLIP's performance in generalizable person re-identification.
Abstract（参考訳）: CLIPのような事前訓練された視覚言語モデルの最近の進歩は、人物再識別(ReID)アプリケーションにおいて有望であることを示している。しかし、一般化可能な人物再識別タスクにおけるそれらのパフォーマンスは、依然として準最適である。 CLIPの事前トレーニングで使用される大規模で多様な画像テキストペアは、特定のきめ細かい機能の欠如または不足につながる可能性がある。これらの課題を踏まえ,深度優先探索に基づくDFGS (Depth-First Graph Sampler) と呼ばれるハードサンプルマイニング手法を提案する。 DFGSはCLIPのイメージエンコーダとテキストエンコーダの両方に適用できる。 CLIPの強力なクロスモーダル学習能力を生かして、DFGS法を用いて、難易度の高いサンプルを抽出し、識別困難度の高いミニバッチを作成することを目的として、画像モデルをより効率的かつ識別が難しいサンプルで提供し、個人を識別する能力を高めることを目的とする。以上の結果から, DFGSがCLIPの性能向上に有効であることを示すとともに, DFGSの有効性を確認した。

関連論文リスト

Try Harder: Hard Sample Generation and Learning for Clothes-Changing Person Re-ID [4.256800812615341]
ハードサンプルは、人物の再識別(ReID)タスクにおいて重要な課題となる。それら固有の曖昧さや類似性は、明示的な定義の欠如と相まって、根本的なボトルネックとなっている。本稿では,新しいマルチモーダル型ハードサンプル生成学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-15T09:14:01Z)
Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning [43.12759195699103]
大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を達成しているが、非効率なサンプル利用と非フレキシブルな難易度サンプル処理によって後処理が制限されている。本稿では,2つの重要なイノベーションを持つ新しいフレームワークであるCustomized Curriculum Learning (CCL)を提案する。まず,各モデルの個々の能力に基づいてカリキュラムデータセットをカスタマイズする,モデル適応的難易度定義を導入する。第2に,戦略的なヒントによって標本の難易度を動的に低減し,性能を低下させるような挑戦的な試料を効果的に活用する「ガイド・プロンプティング」を開発した。
論文参考訳（メタデータ） (2025-06-04T15:31:46Z)
Unlocking the Hidden Potential of CLIP in Generalizable Deepfake Detection [23.48106270102081]
本稿では,顔の深部を部分的に操作して検出する課題に対処する。我々は、Contrastive Language-Image Pre-Training(CLIP)モデル、特にViT-L/14ビジュアルエンコーダを利用する。提案手法は,LNチューニングなどのPEFT技術を用いて,モデルのパラメータの小さな部分集合を調整する。
論文参考訳（メタデータ） (2025-03-25T14:10:54Z)
Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文参考訳（メタデータ） (2024-11-26T00:15:37Z)
Exploring Stronger Transformer Representation Learning for Occluded Person Re-Identification [2.552131151698595]
我々はトランスフォーマーに基づく人物識別フレームワークであるSSSC-TransReIDを組み合わせた新しい自己監督・監督手法を提案した。我々は、ネガティブなサンプルや追加の事前学習なしに、人物の再識別のための特徴表現を強化することができる自己教師付きコントラスト学習ブランチを設計した。提案モデルでは, 平均平均精度(mAP) とランク1の精度において, 最先端のReID手法よりも優れたRe-ID性能が得られ, 高いマージンで性能が向上する。
論文参考訳（メタデータ） (2024-10-21T03:17:25Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations [19.800907485589402]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。微調整CLIPのための軽量表現校正法を提案する。
論文参考訳（メタデータ） (2024-03-12T01:47:17Z)
Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。 CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文参考訳（メタデータ） (2023-11-07T07:27:16Z)
Deep Boosting Multi-Modal Ensemble Face Recognition with Sample-Level Weighting [11.39204323420108]
深層畳み込みニューラルネットワークは顔認識において顕著な成功を収めた。現在のトレーニングベンチマークは、不均衡な品質分布を示している。これは、訓練中に不足しているため、ハードサンプルの一般化に問題を引き起こす。有名なAdaBoostにインスパイアされた本研究では、FR損失に異なるサンプルの重要性を組み込むためのサンプルレベルの重み付け手法を提案する。
論文参考訳（メタデータ） (2023-08-18T01:44:54Z)
GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文参考訳（メタデータ） (2023-03-16T12:06:02Z)
Learning Common Rationale to Improve Self-Supervised Representation for Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。 SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文参考訳（メタデータ） (2023-03-03T02:07:40Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Feature Super-Resolution Based Facial Expression Recognition for Multi-scale Low-Resolution Faces [7.634398926381845]
超解像法はしばしば低分解能画像の高精細化に使用されるが、FERタスクの性能は極低分解能画像では制限される。本研究では,物体検出のための特徴的超解像法に触発されて,頑健な表情認識のための新たな生成逆ネットワークに基づく超解像法を提案する。
論文参考訳（メタデータ） (2020-04-05T15:38:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。