論文の概要: Fair Context Learning for Evidence-Balanced Test-Time Adaptation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.07027v1
- Date: Mon, 02 Feb 2026 16:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.373835
- Title: Fair Context Learning for Evidence-Balanced Test-Time Adaptation in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるエビデンスベースのテスト時間適応のためのフェアコンテキスト学習
- Authors: Sanggeon Yun, Ryozo Masukawa, SungHeon Jeong, Wenjun Huang, Hanning Chen, Mohsen Imani,
- Abstract要約: テスト時間適応(TTA)は、ラベルのないテストサンプルのみを使用して堅牢性を改善することを目的としている。
ほとんどのプロンプトベースのTTA法はエントロピーの最小化に依存している。
本研究では,共有エビデンスバイアスに明示的に対処することにより,エントロピーの最小化を回避するフェアコンテキスト学習(FCL)を提案する。
- 参考スコア(独自算出の注目度): 10.45965859391796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) such as CLIP enable strong zero-shot recognition but suffer substantial degradation under distribution shifts. Test-Time Adaptation (TTA) aims to improve robustness using only unlabeled test samples, yet most prompt-based TTA methods rely on entropy minimization -- an approach that can amplify spurious correlations and induce overconfident errors when classes share visual features. We propose Fair Context Learning (FCL), an episodic TTA framework that avoids entropy minimization by explicitly addressing shared-evidence bias. Motivated by our additive evidence decomposition assumption, FCL decouples adaptation into (i) augmentation-based exploration to identify plausible class candidates, and (ii) fairness-driven calibration that adapts text contexts to equalize sensitivity to common visual evidence. This fairness constraint mitigates partial feature obsession and enables effective calibration of text embeddings without relying on entropy reduction. Through extensive evaluation, we empirically validate our theoretical motivation and show that FCL achieves competitive adaptation performance relative to state-of-the-art TTA methods across diverse domain-shift and fine-grained benchmarks.
- Abstract(参考訳): CLIPのようなビジョンランゲージモデル(VLM)は、強力なゼロショット認識を実現するが、分散シフトによって大幅に劣化する。
テスト時間適応(TTA)は、ラベルのないテストサンプルのみを使用して堅牢性を改善することを目的としているが、ほとんどのプロンプトベースのTTAメソッドはエントロピーの最小化に依存している。
提案するFair Context Learning(FCL)は,共有エビデンスバイアスに明示的に対処することで,エントロピーの最小化を回避するためのエピソードなTTAフレームワークである。
付加的エビデンス分解仮定により、FCLは適応を分離する
一 有能な候補を特定するための増補に基づく探究及び
(II) テキストコンテキストに適応し、一般的な視覚的証拠に対する感度を等化する公平性駆動キャリブレーション。
この公正制約は部分的特徴強迫性を緩和し、エントロピー低減に頼ることなく、テキスト埋め込みの効果的な校正を可能にする。
広範に評価することで、FCLは様々なドメインシフトおよびきめ細かいベンチマークにおいて、最先端のTTA手法と比較して、競争適応性能を達成できることを実証的に検証した。
関連論文リスト
- Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。
CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。
テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:57:28Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - CLIPTTA: Robust Contrastive Vision-Language Test-Time Adaptation [15.732351927470452]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット能力を示すが、分散シフトの下では一般化に失敗することが多い。
テスト時間適応(TTA)は、一般にエントロピーの最小化を通じて、ラベル付きデータなしで推論時にモデルを更新することを可能にする。
CLIPTTAは,CLIPの事前学習目標に沿ったソフトコントラスト損失を利用する視覚言語モデルのための,新しい勾配に基づくTTA手法である。
論文 参考訳(メタデータ) (2025-07-18T18:32:17Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。