論文の概要: Mint: A Simple Test-Time Adaptation of Vision-Language Models against Common Corruptions
- arxiv url: http://arxiv.org/abs/2510.22127v1
- Date: Sat, 25 Oct 2025 02:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.827761
- Title: Mint: A Simple Test-Time Adaptation of Vision-Language Models against Common Corruptions
- Title(参考訳): Mint: ビジョンランゲージモデルの簡易なテスト時間適応
- Authors: Wenxuan Bao, Ruxi Deng, Jingrui He,
- Abstract要約: 劣化がCLIPのイメージ埋め込みにどのように影響するかを考察し,拡散崩壊と呼ばれる一貫した現象を明らかにする。
この崩壊は性能劣化と密接に結びついており,クラス間分散は分類精度と強く相関している。
擬似ラベルに基づくクラス間分散を最大化する簡易なテスト時間適応法Mintを提案する。
- 参考スコア(独自算出の注目度): 44.25678062208464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained vision-language models such as CLIP achieve strong zero-shot generalization but remain vulnerable to distribution shifts caused by input corruptions. In this work, we investigate how corruptions affect CLIP's image embeddings and uncover a consistent phenomenon we term as embedding variance collapse, where both intra-class and inter-class variances shrink as corruption severity increases. We find that this collapse is closely tied to performance degradation, with inter-class variance strongly correlated with classification accuracy. To explain this phenomenon, we analyze how corruptions alter the structure of the embedding space. Our theoretical results suggest that the visual encoder tends to encode corruption-related signals, which dilute class-discriminative features and compress the representation geometry. We further show that maximizing inter-class variance, even when estimated from pseudo-labels, can provably enhance embedding quality. Based on this insight, we propose Mint, a simple test-time adaptation method that maximizes pseudo-label-based inter-class variance on the fly using a mean accumulator and a gradient accumulator. Mint operates effectively with small batch sizes and consistently improves performance across multiple corruption benchmarks and CLIP architectures. Our code is available at https://github.com/baowenxuan/Mint .
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデルは、強いゼロショットの一般化を達成するが、入力の破損による分散シフトに弱いままである。
本研究では,CLIPのイメージ埋め込みに腐敗がどう影響するかを考察し,組込み分散崩壊とよばれる一貫した現象を明らかにする。
この崩壊は性能劣化と密接に結びついており,クラス間分散は分類精度と強く相関している。
この現象を説明するために, 埋込空間の構造が汚損によってどのように変化するかを分析する。
我々の理論的結果は、視覚エンコーダは、クラス識別的特徴を希薄化し、表現幾何学を圧縮する汚職関連信号を符号化する傾向があることを示唆している。
さらに,擬似ラベルから推定した場合でも,クラス間分散の最大化は,埋め込み品質を向上できることを示す。
この知見に基づいて,平均アキュムレータと勾配アキュムレータを用いて,擬似ラベルに基づくクラス間分散を最大化する簡易なテスト時間適応法Mintを提案する。
Mintは小さなバッチサイズで効果的に動作し、複数の汚職ベンチマークとCLIPアーキテクチャのパフォーマンスを一貫して改善する。
私たちのコードはhttps://github.com/baowenxuan/Mint で利用可能です。
関連論文リスト
- Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models [3.938980910007962]
信頼度校正は、基礎モデルに基づく現実世界の意思決定システムにおいて、新たな課題である。
本研究では,微調整の際,不正分類を罰する損失目標に組み込んだペナルティを提案する。
CMP(textitconfidence misalignment penalty)と呼ぶ。
論文 参考訳(メタデータ) (2025-01-29T11:54:37Z) - A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - How does Contrastive Learning Organize Images? [8.077578967149561]
コントラスト学習(Contrastive Learning)は、同じ入力の増大と異なる入力の相違の表現において類似性を強調している。
近年の研究はこの直接的な関係に挑戦し、帰納的バイアスの重要な役割を浮き彫りにしている。
この差を捉えるために、RLD(Relative Local Density)メトリクスを導入します。
論文 参考訳(メタデータ) (2023-05-17T14:10:54Z) - Neural Collapse Inspired Feature-Classifier Alignment for Few-Shot Class
Incremental Learning [120.53458753007851]
FSCIL(Few-shot class-incremental Learning)は、新しいセッションにおいて、新しいクラスごとにいくつかのトレーニングサンプルしかアクセスできないため、難しい問題である。
我々は最近発見された神経崩壊現象にインスパイアされたFSCILのこの不整合ジレンマに対処する。
我々は、FSCILのための神経崩壊誘発フレームワークを提案する。MiniImageNet、CUB-200、CIFAR-100データセットの実験により、提案したフレームワークが最先端のパフォーマンスより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:39:40Z) - Diverse Gaussian Noise Consistency Regularization for Robustness and
Uncertainty Calibration [7.310043452300738]
深層ニューラルネットワークは、列車と試験分布が一致したときに高い予測精度を達成する。
この設定から逸脱し、深刻なパフォーマンス劣化を引き起こす、さまざまな種類の汚職が発生する。
本稿では,画像分類器の多種多様な汚損下での堅牢性向上のための多種多様なガウス雑音整合正則化法を提案する。
論文 参考訳(メタデータ) (2021-04-02T20:25:53Z) - On Interaction Between Augmentations and Corruptions in Natural
Corruption Robustness [78.6626755563546]
ImageNet-Cのパフォーマンスを大幅に改善するいくつかの新しいデータ拡張が提案されている。
我々は,類似度と性能の間に強い相関があることを示すために,最小サンプル距離(minimal sample distance)と呼ばれる拡張と腐敗の間の新たな尺度を開発した。
テストタイムの破損がImageNet-Cと知覚的に異なる場合, 破損の顕著な劣化を観察する。
以上の結果から,テストエラーは知覚的に類似した拡張をトレーニングすることで改善できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-02-22T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。