論文の概要: In Search of the Successful Interpolation: On the Role of Sharpness in CLIP Generalization
- arxiv url: http://arxiv.org/abs/2410.16476v1
- Date: Mon, 21 Oct 2024 20:03:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:16.082406
- Title: In Search of the Successful Interpolation: On the Role of Sharpness in CLIP Generalization
- Title(参考訳): 補間成功の探究--CLIP一般化におけるシャープネスの役割について
- Authors: Alireza Abdollahpoorrostam,
- Abstract要約: textitzero-shot と textitfine-tuned のモデルを補間する textttRFT がこの問題に対処するために提案されている。
我々は,テキストtRFTのOOD精度の一般化と,テクスタイトレイヤーワイドシャープネスの相関性を示す。
また,textttRFT におけるtextitstraggler 層内の疎結合を誘導することにより,textitfailure モード現象を緩和できることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: \textit{Zero-shot} models like CLIP are often fine-tuned on a target dataset to improve its accuracy further, but this can compromise out-of-distribution (OOD) robustness. Robust Fine-Tuning (\texttt{RFT} )~\citep{wortsman2021robust}, which interpolates between the \textit{zero-shot} and \textit{fine-tuned} models, has been proposed to address this issue. However, understanding when \texttt{RFT} actually improves OOD error remains limited. In this work, we empirically investigate the robustness of \texttt{RFT} in CLIP models, with a focus on the \textit{sharpness} of the CLIP model during interpolation. First, we demonstrate that while sharpness may not serve as a reliable indicator for predicting the generalization of modern architectures like CLIP on OOD data, this challenges the conventional belief in the generalization benefits of flat minima in foundation models. However, by examining the role of the \textit{straggler layer} phenomenon, we show that, unlike overall sharpness, the \textit{layer-wise} sharpness of \textit{straggler} layers can reliably capture the generalization performance of interpolated CLIP models on OOD data. Our extensive experiments reveal that \textit{layer-wise} sharpness correlates with generalization in OOD accuracy for \texttt{RFT}. Furthermore, we demonstrate that by inducing sparsity in the \textit{straggler} layers, we can mitigate the \textit{failure mode} phenomenon in \texttt{RFT}. To the best of our knowledge, this is the first work to study the role of sharpness in the \textit{success} of interpolation in the weight space of CLIP foundation models. Our code is available at \url{https://github.com/alirezaabdollahpour/CLIP_Mode_Connectivity}.
- Abstract(参考訳): CLIPのような \textit{Zero-shot} モデルは、その精度を向上させるためにターゲットデータセットに微調整されることが多いが、これはアウト・オブ・ディストリビューション(OOD)の堅牢性を損なう可能性がある。
Robust Fine-Tuning (\texttt{RFT} )~\citep{wortsman2021robust} は \textit{zero-shot} と \textit{fine-tuned} のモデルを補間する。
しかし、texttt{RFT} が実際に OOD エラーを改善するときの理解は限定的である。
本稿では,CLIPモデルにおける \texttt{RFT} の堅牢性について実験的に検討し,補間中のCLIPモデルの \textit{sharpness} に着目した。
第一に、鋭さは、OODデータ上のCLIPのような近代建築の一般化を予測するための信頼性のある指標にはならないが、基礎モデルにおけるフラットミニマの一般化の利点に対する従来の信念に異議を唱える。
しかし, <textit{straggler layer} 現象の役割を調べることで, 全体的なシャープネスとは異なり, <textit{straggler} 層の \textit{layer-wise} シャープネスは OOD データ上で補間された CLIP モデルの一般化性能を確実に捉えることができることを示した。
以上の結果から, <textit{layer-wise} のシャープネスは OOD の精度の一般化と相関することが明らかとなった。
さらに, \texttt{RFT} における \textit{frailure mode} 現象を緩和できることを示す。
私たちの知る限りでは、これはCLIP基礎モデルの重み空間における補間の \textit{success} におけるシャープネスの役割を研究する最初の研究である。
我々のコードは \url{https://github.com/alirezaabdollahpour/CLIP_Mode_Connectivity} で利用可能です。
関連論文リスト
- African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - Understanding and Mitigating Compositional Issues in Text-to-Image Generative Models [46.723653095494896]
CLIPテキストエンコーダによる不完全なテキストコンディショニングは、高忠実な合成シーンを生成するためのテキスト・ツー・イメージ・モデルが欠如している主な理由の1つであることを示す。
本研究の主目的は,モデルのFIDスコアを損なうことなく,最高の構成改善が達成できることである。
論文 参考訳(メタデータ) (2024-06-12T03:21:34Z) - Communication Efficient and Provable Federated Unlearning [43.178460522012934]
我々は、フェデレーション・アンラーニング(フェデレーション・アンラーニング)という、特定のクライアントやデータポイントが、フェデレーション・ラーニング(FL)を通じて学習したグローバルモデルに与える影響をなくすための新しい問題について研究する。
この問題は、忘れられる権利とFLのプライバシー問題によって引き起こされる。
我々は,テキストコミュニケーション効率とテキストテキサクト・アンラーニング性という2つの重要な基準を満たす,正確な非ラーニングのための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-01-19T20:35:02Z) - Learning Robust Precipitation Forecaster by Temporal Frame Interpolation [65.5045412005064]
本研究では,空間的不一致に対するレジリエンスを示す頑健な降水予測モデルを構築した。
提案手法は,textit4cast'23コンペティションの移行学習リーダーボードにおいて,textit1位を確保したモデルにおいて,予測精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-30T08:22:08Z) - RankFeat&RankWeight: Rank-1 Feature/Weight Removal for
Out-of-distribution Detection [74.48870221803242]
textttRankFeatは、最先端のパフォーマンスを実現し、平均偽陽性率(FPR95)を17.90%削減する。
単一の深層パラメータ行列からランク1重みを除去するtextttRankWeightを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:17:45Z) - Improving Zero-Shot Generalization for CLIP with Synthesized Prompts [135.4317555866831]
既存のほとんどのメソッドは、実世界のアプリケーションでは保持できない全てのクラスにラベル付きデータを必要とする。
既存の微調整法を改善するために,textbfSynttextbfHestextbfIzed textbfPrompts(textbfSHIP)と呼ばれるプラグアンドプレイ生成手法を提案する。
論文 参考訳(メタデータ) (2023-07-14T15:15:45Z) - Adapting Contrastive Language-Image Pretrained (CLIP) Models for
Out-of-Distribution Detection [1.597617022056624]
本研究では,視覚的アウトオブディストリビューション(OOD)検出のための事前訓練された特徴抽出器に関する総合的研究を行った。
我々は,OOD検出のための視覚言語モデルに適応するスタイリット擬似ラベル探索(PLP)と呼ばれる,シンプルでスケーラブルな新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T10:02:18Z) - Context-Aware Robust Fine-Tuning [23.027441849817922]
コントラスト言語-画像事前訓練(CLIP)モデルは、"[CLASS]"に属する画像を分類するゼロショット能力を有する
CLIPモデルの微調整は精度を向上させるが、下流タスクの堅牢性を犠牲にする。
本稿では,この問題を解決するためにコンテキスト対応ロバストファインチューニング(CAR-FT)を提案する。
論文 参考訳(メタデータ) (2022-11-29T13:07:41Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。