論文の概要: ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation
- arxiv url: http://arxiv.org/abs/2308.03793v2
- Date: Thu, 14 Dec 2023 03:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:31:07.700124
- Title: ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation
- Title(参考訳): ReCLIP: ソースフリードメイン適応によるコントラスト言語イメージの事前学習
- Authors: Xuefeng Hu, Ke Zhang, Lu Xia, Albert Chen, Jiajia Luo, Yuyin Sun, Ken
Wang, Nan Qiao, Xiao Zeng, Min Sun, Cheng-Hao Kuo, Ram Nevatia
- Abstract要約: ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
- 参考スコア(独自算出の注目度): 20.57370550156505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated
outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1
accuracy on ImageNet without seeing any example, which leads to potential
benefits to many tasks that have no labeled data. However, while applying CLIP
to a downstream target domain, the presence of visual and text domain gaps and
cross-modality misalignment can greatly impact the model performance. To
address such challenges, we propose ReCLIP, the first source-free domain
adaptation method for vision-language models, which does not require any source
data or target labeled data. ReCLIP first learns a projection space to mitigate
the misaligned visual-text embeddings and learns pseudo labels, and then
deploys cross-modality self-training with the pseudo labels, to update visual
and text encoders, refine labels and reduce domain gaps and misalignments
iteratively. With extensive experiments, we demonstrate ReCLIP reduces the
average error rate of CLIP from 30.17% to 25.06% on 22 image classification
benchmarks. Code available at https://github.com/michiganleon/ReCLIP_WACV.
- Abstract(参考訳): clipのような大規模事前学習型視覚言語モデルはゼロショット分類において、例を見ずに、imagenetで76.3%のtop-1精度を達成するなど、優れた性能を示している。
しかし、CLIPを下流のターゲットドメインに適用する一方で、視覚領域とテキスト領域のギャップとモダリティ間のミスアライメントの存在は、モデルのパフォーマンスに大きな影響を与えます。
このような課題に対処するために,視覚言語モデルに対して,ソースデータやラベル付きデータを必要としない,最初のソースフリーなドメイン適応手法であるrelipを提案する。
ReCLIPはまず、不整合なビジュアルテキスト埋め込みを緩和するプロジェクション空間を学習し、擬似ラベルを学習し、擬似ラベルと相互に学習し、視覚的およびテキストエンコーダを更新し、ラベルを洗練し、ドメインギャップを減らし、繰り返し修正する。
広範な実験により、22の画像分類ベンチマークにおいて、ReCLIPはCLIPの平均エラー率を30.17%から25.06%に下げることを示した。
コードはhttps://github.com/michiganleon/reclip_wacv。
関連論文リスト
- UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models [75.77651291095565]
我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。
この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。
このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
論文 参考訳(メタデータ) (2024-11-11T12:25:02Z) - Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。
CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。
提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文 参考訳(メタデータ) (2023-05-15T14:42:02Z) - Less is More: Removing Text-regions Improves CLIP Training Efficiency
and Robustness [19.77762574325687]
CLIP(Contrastive Language- Image Pre-training)モデルとその変種は、多くのアプリケーションにおいて事実上のバックボーンになりつつある。
CLIPトレーニングの効率性と堅牢性を改善するための2つの効果的なアプローチについて論じる。
私たちのフィルタベースのCLIPモデルでは、トップ1の精度は68.78%で、すべて50%未満の精度で過去のモデルより優れています。
論文 参考訳(メタデータ) (2023-05-08T23:47:07Z) - Improving Zero-Shot Models with Label Distribution Priors [33.51714665243138]
本稿では,ゼロショットモデルを適用した新しいアプローチであるCLIPPRを提案する。
UTK年齢回帰作業における平均絶対誤差は平均28%改善した。
また、分類ベンチマークの有望な結果を示し、ラベルを使わずにImageNetデータセットの分類精度を2.83%改善した。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。