Fugu-MT 論文翻訳(概要): Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification

論文の概要: Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification

arxiv url: http://arxiv.org/abs/2310.17218v1
Date: Thu, 26 Oct 2023 08:12:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 21:19:20.742090
Title: Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification
Title（参考訳）: 原型コントラスト学習に基づくCLIPファインタニングによる物体再同定
Authors: Jiachen Li and Xiaojin Gong
Abstract要約: 本研究の目的は、オブジェクト再識別(Re-ID)の性能を高めるために、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルを適用することである。私たちはまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を同定する。提案手法は,CLIPのイメージエンコーダを直接微調整し,プロトタイプ・コントラッシブ・ラーニング(PCL)の損失を低減し,即時学習の必要性を解消する。
参考スコア（独自算出の注目度）: 13.090873217313732
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work aims to adapt large-scale pre-trained vision-language models, such as contrastive language-image pretraining (CLIP), to enhance the performance of object reidentification (Re-ID) across various supervision settings. Although prompt learning has enabled a recent work named CLIP-ReID to achieve promising performance, the underlying mechanisms and the necessity of prompt learning remain unclear due to the absence of semantic labels in ReID tasks. In this work, we first analyze the role prompt learning in CLIP-ReID and identify its limitations. Based on our investigations, we propose a simple yet effective approach to adapt CLIP for supervised object Re-ID. Our approach directly fine-tunes the image encoder of CLIP using a prototypical contrastive learning (PCL) loss, eliminating the need for prompt learning. Experimental results on both person and vehicle Re-ID datasets demonstrate the competitiveness of our method compared to CLIP-ReID. Furthermore, we extend our PCL-based CLIP fine-tuning approach to unsupervised scenarios, where we achieve state-of-the art performance.
Abstract（参考訳）: 本研究の目的は、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルに適応し、様々な監視設定におけるオブジェクト再識別(Re-ID)の性能を高めることである。即時学習はCLIP-ReIDと呼ばれる最近の研究で有望なパフォーマンスを実現しているが、ReIDタスクに意味ラベルがないため、基礎となるメカニズムと即時学習の必要性は依然として不明である。本稿ではまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を明らかにする。そこで本研究では,CLIPを教師付きオブジェクトRe-IDに適用する手法を提案する。本手法は,prototypical contrastive learning (pcl) 損失を用いてクリップの画像エンコーダを直接微調整し,迅速な学習を不要にする。人と車の両方のRe-IDデータセットに対する実験結果から,CLIP-ReIDと比較して,本手法の競争力を示す。さらに、PCLベースのCLIPファインチューニングアプローチを教師なしシナリオに拡張し、最先端のパフォーマンスを実現する。

関連論文リスト

Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。 SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文参考訳（メタデータ） (2024-11-24T15:14:05Z)
ET tu, CLIP? Addressing Common Object Errors for Unseen Environments [0.2714641498775158]
ALFREDタスクにおけるモデル一般化を強化するために、事前訓練されたCLIPエンコーダを使用する簡単な方法を提案する。 CLIPがビジュアルエンコーダを置き換える以前の文献とは対照的に、補助オブジェクト検出の目的を通じて追加モジュールとしてCLIPを使用することを提案する。
論文参考訳（メタデータ） (2024-06-25T18:35:13Z)
What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。 CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文参考訳（メタデータ） (2024-05-31T17:57:24Z)
CLIP Can Understand Depth [5.6138460823631835]
我々はCLIPを高密度予測による単眼深度推定の有意な品質に適応させる。我々のモデルは、これまでの最先端のビジョンのみのモデルに匹敵する印象的な性能を示す。
論文参考訳（メタデータ） (2024-02-05T18:09:33Z)
Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。 ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文参考訳（メタデータ） (2024-02-03T14:20:20Z)
Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文参考訳（メタデータ） (2023-10-02T06:41:30Z)
CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文参考訳（メタデータ） (2023-03-06T09:17:47Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Learning Deep Representations via Contrastive Learning for Instance Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文参考訳（メタデータ） (2022-09-28T04:36:34Z)
Using Representation Expressiveness and Learnability to Evaluate Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。 CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。 CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文参考訳（メタデータ） (2022-06-02T19:05:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。