Fugu-MT 論文翻訳(概要): Does CLIP's Generalization Performance Mainly Stem from High Train-Test Similarity?

論文の概要: Does CLIP's Generalization Performance Mainly Stem from High Train-Test Similarity?

arxiv url: http://arxiv.org/abs/2310.09562v2
Date: Thu, 14 Mar 2024 18:18:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 02:23:27.394062
Title: Does CLIP's Generalization Performance Mainly Stem from High Train-Test Similarity?
Title（参考訳）: CLIPの一般化性能は、高信頼度テストの類似性から重視されるか?
Authors: Prasanna Mayilvahanan, Thaddäus Wiedemer, Evgenia Rusak, Matthias Bethge, Wieland Brendel,
Abstract要約: CLIPのようなファンデーションモデルは、数億のサンプルでトレーニングされており、新しいタスクやインプットに懸命に一般化されている。これらの結果から,CLIPのOOD性能を説明するには列車試験の類似性が不十分であることが示唆された。
参考スコア（独自算出の注目度）: 21.556266136890844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation models like CLIP are trained on hundreds of millions of samples and effortlessly generalize to new tasks and inputs. Out of the box, CLIP shows stellar zero-shot and few-shot capabilities on a wide range of out-of-distribution (OOD) benchmarks, which prior works attribute mainly to today's large and comprehensive training dataset (like LAION). However, it is questionable how meaningful terms like out-of-distribution generalization are for CLIP as it seems likely that web-scale datasets like LAION simply contain many samples that are similar to common OOD benchmarks originally designed for ImageNet. To test this hypothesis, we retrain CLIP on pruned LAION splits that replicate ImageNet's train-test similarity with respect to common OOD benchmarks. While we observe a performance drop on some benchmarks, surprisingly, CLIP's overall performance remains high. This shows that high train-test similarity is insufficient to explain CLIP's OOD performance, and other properties of the training data must drive CLIP to learn more generalizable representations. Additionally, by pruning data points that are dissimilar to the OOD benchmarks, we uncover a 100M split of LAION ($\frac{1}{4}$th of its original size) on which CLIP can be trained to match its original OOD performance.
Abstract（参考訳）: CLIPのようなファンデーションモデルは、数億のサンプルでトレーニングされており、新しいタスクやインプットに懸命に一般化されている。最初からCLIPは、幅広いアウト・オブ・ディストリビューション(OOD)ベンチマークで、スターゼロショットと少数ショットの機能を提供する。しかし、CLIPのアウト・オブ・ディストリビューション(out-of-distriion)の一般化のような意味のある用語は、LAIONのようなWebスケールのデータセットが、ImageNet用にもともと設計された一般的なOODベンチマークに類似した多くのサンプルを含んでいる可能性が高いため、疑問視されている。この仮説をテストするために、私たちは、一般的なOODベンチマークに対するImageNetのトレインテストの類似性を再現する、pruned LAIONスプリットでCLIPを再訓練した。いくつかのベンチマークのパフォーマンス低下を観察する一方で、驚くべきことに、CLIP全体のパフォーマンスは高いままです。これは、CLIPのOODパフォーマンスを説明するには高いトレインテストの類似性が不十分であることを示している。さらに、OODベンチマークと異なるデータポイントを抽出することで、CLIPがオリジナルのOODパフォーマンスに合わせてトレーニングできるLAION($\frac{1}{4}$th)の1億の分割が明らかになった。

関連論文リスト

Breaking the Limits of Open-Weight CLIP: An Optimization Framework for Self-supervised Fine-tuning of CLIP [60.025820738301434]
TuneCLIPはCLIPモデルの自己教師型微調整フレームワークである。モデルアーキテクチャとスケールをまたいだパフォーマンスを継続的に改善します。 SigLIP (ViT-B/16) のような主要なオープンウェイトモデルが増加し、ImageNetと関連するアウト・オブ・ディストリビューション・ベンチマークで最大で2.5%向上した。
論文参考訳（メタデータ） (2026-01-14T20:38:36Z)
COOkeD: Ensemble-based OOD detection in the era of zero-shot CLIP [47.84776775118222]
アウト・オブ・ディストリビューション(OOD)検出は、信頼できる画像認識システムにおいて重要なビルディングブロックである。両端から少し開放感が与えられると、不均一なアンサンブルを生成することで、顕著なOOD検出が達成できることが示される。 CokeDは、古典的およびCLIPベースのOOD検出方法と比較して、最先端のパフォーマンスとロバスト性の向上を実現している。
論文参考訳（メタデータ） (2025-07-30T11:02:38Z)
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な表現を生成する訓練不要の手法である。 SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文参考訳（メタデータ） (2024-11-24T15:14:05Z)
A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文参考訳（メタデータ） (2024-02-06T15:45:27Z)
Adapting Contrastive Language-Image Pretrained (CLIP) Models for Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-10T10:02:18Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1 Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文参考訳（メタデータ） (2022-12-12T18:59:59Z)
CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。 CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文参考訳（メタデータ） (2022-11-17T18:58:33Z)
Do Pre-trained Models Benefit Equally in Continual Learning? [25.959813589169176]
既存の継続学習(CL)の研究は主に、ゼロから訓練されたモデルのアルゴリズムの開発に費やされている。コントリビュートベンチマークのパフォーマンスは高いが、これらのアルゴリズムは現実のシナリオで劇的なパフォーマンス低下を示す。本稿では,CLに対する事前学習の体系的導入を提唱する。
論文参考訳（メタデータ） (2022-10-27T18:03:37Z)
OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。 OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文参考訳（メタデータ） (2022-06-06T03:54:53Z)
Democratizing Contrastive Language-Image Pre-training: A CLIP Benchmark of Data, Model, and Supervision [26.13829720290035]
Contrastive Language-Image Pretraining (CLIP) は、言語監督から視覚モデルを学ぶための新しいパラダイムとして登場した。私たちはCLIPとその変異体を評価し、分析し、ベンチマークする最初の試みであるCLIP-benchmarkを提案する。
論文参考訳（メタデータ） (2022-03-11T08:41:00Z)
The CLEAR Benchmark: Continual LEArning on Real-World Imagery [77.98377088698984]
連続学習(CL)は、生涯AIにとって重要な課題であると考えられている。本稿では,視覚概念の自然な時間進化を伴う最初の連続画像分類ベンチマークであるCLEARを紹介する。単純な教師なし事前学習のステップで、最先端のCLアルゴリズムがすでに強化されていることが分かりました。
論文参考訳（メタデータ） (2022-01-17T09:09:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。