論文の概要: CLIPTTA: Robust Contrastive Vision-Language Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2507.14312v1
- Date: Fri, 18 Jul 2025 18:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.833358
- Title: CLIPTTA: Robust Contrastive Vision-Language Test-Time Adaptation
- Title(参考訳): CLIPTTA:ロバストなコントラストビジョンランゲージテスト時間適応
- Authors: Marc Lafon, Gustavo Adolfo Vargas Hakim, Clément Rambour, Christian Desrosier, Nicolas Thome,
- Abstract要約: CLIPのような視覚言語モデル(VLM)は、強いゼロショット能力を示すが、分散シフトの下では一般化に失敗することが多い。
テスト時間適応(TTA)は、一般にエントロピーの最小化を通じて、ラベル付きデータなしで推論時にモデルを更新することを可能にする。
CLIPTTAは,CLIPの事前学習目標に沿ったソフトコントラスト損失を利用する視覚言語モデルのための,新しい勾配に基づくTTA手法である。
- 参考スコア(独自算出の注目度): 15.746085775084234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) like CLIP exhibit strong zero-shot capabilities but often fail to generalize under distribution shifts. Test-time adaptation (TTA) allows models to update at inference time without labeled data, typically via entropy minimization. However, this objective is fundamentally misaligned with the contrastive image-text training of VLMs, limiting adaptation performance and introducing failure modes such as pseudo-label drift and class collapse. We propose CLIPTTA, a new gradient-based TTA method for vision-language models that leverages a soft contrastive loss aligned with CLIP's pre-training objective. We provide a theoretical analysis of CLIPTTA's gradients, showing how its batch-aware design mitigates the risk of collapse. We further extend CLIPTTA to the open-set setting, where both in-distribution (ID) and out-of-distribution (OOD) samples are encountered, using an Outlier Contrastive Exposure (OCE) loss to improve OOD detection. Evaluated on 75 datasets spanning diverse distribution shifts, CLIPTTA consistently outperforms entropy-based objectives and is highly competitive with state-of-the-art TTA methods, outperforming them on a large number of datasets and exhibiting more stable performance across diverse shifts.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、強いゼロショット能力を示すが、分散シフトの下では一般化に失敗することが多い。
テスト時間適応(TTA)は、一般にエントロピーの最小化を通じて、ラベル付きデータなしで推論時にモデルを更新することを可能にする。
しかし、この目的は、VLMの対照的な画像テキストトレーニング、適応性能の制限、擬似ラベルドリフトやクラス崩壊といった障害モードの導入などと基本的には一致していない。
CLIPTTAは,CLIPの事前学習目標と整合したソフトコントラスト損失を利用する視覚言語モデルのための,新しい勾配に基づくTTA手法である。
本稿では,CLIPTTAの勾配の理論的解析を行い,バッチ認識設計が崩壊のリスクを軽減する方法を示す。
我々はさらにCLIPTTAをオープンセット設定に拡張し、OOD検出を改善するためにOutlier Contrastive Exposure (OCE) 損失を用いて、in-distriion (ID) とout-of-distriion (OOD) の両方のサンプルに遭遇する。
多様な分散シフトにまたがる75のデータセットに基づいて評価され、CLIPTTAはエントロピーベースの目標を一貫して上回り、最先端のTTAメソッドと高い競争力を持ち、多数のデータセットでパフォーマンスを上回り、多様なシフトに対してより安定したパフォーマンスを示す。
関連論文リスト
- Unleashing the Potential of All Test Samples: Mean-Shift Guided Test-Time Adaptation [18.82879703518279]
既存のトレーニング不要なテスト時間適応手法は、CLIPの本来の機能空間内で厳密に動作する。
我々は、k-nearest neighbors (kNN) Mean-Shiftを用いて、CLIP空間以外の特徴表現を強化する訓練不要のアプローチであるMS-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-01T06:22:00Z) - FRET: Feature Redundancy Elimination for Test Time Adaptation [4.793572485305334]
テスト時間適応(TTA)は、トレーニングデータからの分散シフトを示すテストデータに直面した場合、ディープラーニングモデルの一般化を促進することを目的としている。
実際には、TTAのドメインシフトが増大するにつれて、埋め込みにおける特徴冗長性が増大する傾向にある。
本稿では,テスト時間適応のための特徴冗長性除去(FRET)について紹介する。
論文 参考訳(メタデータ) (2025-05-15T18:22:56Z) - ULFine: Unbiased Lightweight Fine-tuning for Foundation-Model-Assisted Long-Tailed Semi-Supervised Learning [27.467732819969935]
本稿では,Long-Tailed Semi-Supervised Learning (LTSSL) における大規模視覚基盤モデルの効果について検討する。
我々はリニアプローブ(LP)、軽量ファインチューニング(LFT)、フルファインチューニング(FFT)の3つの戦略を採用している。
i) LTSSLアルゴリズムと比較して,FFTはモデル性能が低下するのに対し,LPとLFTはモデル性能を向上するが,テールクラスには無視できる利点がある。
我々は無バイアス軽量ファインチューニング戦略である textbfULFine を提案する。
論文 参考訳(メタデータ) (2025-05-08T08:54:57Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。
本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:22:32Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。
近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。
本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-05T09:18:29Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。