Fugu-MT 論文翻訳(概要): ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation

論文の概要: ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation

arxiv url: http://arxiv.org/abs/2308.03793v2
Date: Thu, 14 Dec 2023 03:55:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-16 04:31:07.700124
Title: ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation
Title（参考訳）: ReCLIP: ソースフリードメイン適応によるコントラスト言語イメージの事前学習
Authors: Xuefeng Hu, Ke Zhang, Lu Xia, Albert Chen, Jiajia Luo, Yuyin Sun, Ken Wang, Nan Qiao, Xiao Zeng, Min Sun, Cheng-Hao Kuo, Ram Nevatia
Abstract要約: ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。 ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
参考スコア（独自算出の注目度）: 20.57370550156505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale Pre-Training Vision-Language Model such as CLIP has demonstrated outstanding performance in zero-shot classification, e.g. achieving 76.3% top-1 accuracy on ImageNet without seeing any example, which leads to potential benefits to many tasks that have no labeled data. However, while applying CLIP to a downstream target domain, the presence of visual and text domain gaps and cross-modality misalignment can greatly impact the model performance. To address such challenges, we propose ReCLIP, the first source-free domain adaptation method for vision-language models, which does not require any source data or target labeled data. ReCLIP first learns a projection space to mitigate the misaligned visual-text embeddings and learns pseudo labels, and then deploys cross-modality self-training with the pseudo labels, to update visual and text encoders, refine labels and reduce domain gaps and misalignments iteratively. With extensive experiments, we demonstrate ReCLIP reduces the average error rate of CLIP from 30.17% to 25.06% on 22 image classification benchmarks. Code available at https://github.com/michiganleon/ReCLIP_WACV.
Abstract（参考訳）: clipのような大規模事前学習型視覚言語モデルはゼロショット分類において、例を見ずに、imagenetで76.3%のtop-1精度を達成するなど、優れた性能を示している。しかし、CLIPを下流のターゲットドメインに適用する一方で、視覚領域とテキスト領域のギャップとモダリティ間のミスアライメントの存在は、モデルのパフォーマンスに大きな影響を与えます。このような課題に対処するために,視覚言語モデルに対して,ソースデータやラベル付きデータを必要としない,最初のソースフリーなドメイン適応手法であるrelipを提案する。 ReCLIPはまず、不整合なビジュアルテキスト埋め込みを緩和するプロジェクション空間を学習し、擬似ラベルを学習し、擬似ラベルと相互に学習し、視覚的およびテキストエンコーダを更新し、ラベルを洗練し、ドメインギャップを減らし、繰り返し修正する。広範な実験により、22の画像分類ベンチマークにおいて、ReCLIPはCLIPの平均エラー率を30.17%から25.06%に下げることを示した。コードはhttps://github.com/michiganleon/reclip_wacv。

関連論文リスト

UMFC: Unsupervised Multi-Domain Feature Calibration for Vision-Language Models [75.77651291095565]
我々は、視覚言語モデルの転送可能性を高めるために、自然に複数のドメインにまたがるラベルのないデータを活用する。この教師なしマルチドメイン設定の下で、我々はCLIP内の固有モデルバイアスを特定した。このモデルバイアスを軽減するために,Unsupervised Multi-domain Feature (UMFC)を提案する。
論文参考訳（メタデータ） (2024-11-11T12:25:02Z)
Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-25T04:00:45Z)
CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文参考訳（メタデータ） (2023-10-21T20:20:13Z)
VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文参考訳（メタデータ） (2023-10-11T17:49:13Z)
CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。 CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文参考訳（メタデータ） (2023-05-15T14:42:02Z)
Less is More: Removing Text-regions Improves CLIP Training Efficiency and Robustness [19.77762574325687]
CLIP(Contrastive Language- Image Pre-training)モデルとその変種は、多くのアプリケーションにおいて事実上のバックボーンになりつつある。 CLIPトレーニングの効率性と堅牢性を改善するための2つの効果的なアプローチについて論じる。私たちのフィルタベースのCLIPモデルでは、トップ1の精度は68.78%で、すべて50%未満の精度で過去のモデルより優れています。
論文参考訳（メタデータ） (2023-05-08T23:47:07Z)
Improving Zero-Shot Models with Label Distribution Priors [33.51714665243138]
本稿では,ゼロショットモデルを適用した新しいアプローチであるCLIPPRを提案する。 UTK年齢回帰作業における平均絶対誤差は平均28%改善した。また、分類ベンチマークの有望な結果を示し、ラベルを使わずにImageNetデータセットの分類精度を2.83%改善した。
論文参考訳（メタデータ） (2022-12-01T18:59:03Z)
Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。 MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文参考訳（メタデータ） (2022-06-07T02:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。