論文の概要: Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations
- arxiv url: http://arxiv.org/abs/2507.09500v1
- Date: Sun, 13 Jul 2025 05:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.366128
- Title: Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations
- Title(参考訳): 視覚変化を考慮した視覚言語モデルの信頼性試験時間適応
- Authors: Yiwen Liang, Hui Chen, Yizhe Xiong, Zihan Zhou, Mengyao Lyu, Zijia Lin, Shuaicheng Niu, Sicheng Zhao, Jungong Han, Guiguang Ding,
- Abstract要約: 視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
- 参考スコア(独自算出の注目度): 67.35596444651037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) exhibit remarkable zero-shot capabilities but struggle with distribution shifts in downstream tasks when labeled data is unavailable, which has motivated the development of Test-Time Adaptation (TTA) to improve VLMs' performance during inference without annotations. Among various TTA approaches, cache-based methods show promise by preserving historical knowledge from low-entropy samples in a dynamic cache and fostering efficient adaptation. However, these methods face two critical reliability challenges: (1) entropy often becomes unreliable under distribution shifts, causing error accumulation in the cache and degradation in adaptation performance; (2) the final predictions may be unreliable due to inflexible decision boundaries that fail to accommodate large downstream shifts. To address these challenges, we propose a Reliable Test-time Adaptation (ReTA) method that integrates two complementary strategies to enhance reliability from two perspectives. First, to mitigate the unreliability of entropy as a sample selection criterion for cache construction, we introduce Consistency-aware Entropy Reweighting (CER), which incorporates consistency constraints to weight entropy during cache updating. While conventional approaches rely solely on low entropy for cache prioritization and risk introducing noise, our method leverages predictive consistency to maintain a high-quality cache and facilitate more robust adaptation. Second, we present Diversity-driven Distribution Calibration (DDC), which models class-wise text embeddings as multivariate Gaussian distributions, enabling adaptive decision boundaries for more accurate predictions across visually diverse content. Extensive experiments demonstrate that ReTA consistently outperforms state-of-the-art methods, particularly under challenging real-world distribution shifts.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合の下流タスクの分散シフトに苦慮し、アノテーションなしでVLMのパフォーマンスを向上させるためのテスト時間適応(TTA)の開発を動機付けている。
様々なTTAアプローチの中で、キャッシュベースの手法は、動的キャッシュ内の低エントロピーサンプルからの履歴知識を保存し、効率の良い適応を促進することによって、将来性を示す。
しかし, この手法は, 分散シフト時にエントロピーが信頼できない場合が多く, キャッシュにエラーが蓄積し, 適応性能が低下する場合, 2) 大きな下流シフトに対応できない非フレキシブルな決定境界のため, 最終的な予測は信頼できない場合がある。
これらの課題に対処するために,2つの相補的戦略を統合した信頼性テスト時適応法(Reliable Test-Time Adaptation, ReTA)を提案する。
まず、キャッシュ構築のためのサンプル選択基準としてのエントロピーの不確実性を緩和するため、キャッシュ更新時の重み付けに対する一貫性制約を組み込んだ一貫性対応エントロピーリヘアリング(CER)を導入する。
従来の手法では、キャッシュ優先化やノイズのリスク導入のためのエントロピーの低さにのみ依存するが、予測整合性を利用して高品質なキャッシュを維持し、より堅牢な適応を容易にする。
次に、多変量ガウス分布としてクラスワイドテキスト埋め込みをモデル化し、視覚的に多様なコンテンツのより正確な予測のための適応的決定境界を可能にする、多様性駆動型分布校正(DDC)を提案する。
大規模な実験により、ReTAは最先端の手法を一貫して上回り、特に現実の分散シフトに挑戦している。
関連論文リスト
- Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization [23.328511708942045]
Heterogeneity-Aware Distributional Framework (HDF) は、時間周波数モデリングを強化し、ハードサンプルによる不均衡を軽減するために設計された。
時間周波数分散アテンションモジュール(DAM)は、時間的一貫性と周波数ロバスト性の両方をキャプチャする。
適応最適化モジュール 分散対応スケーリングモジュール (DSM) は、動的に分類と対照的な損失のバランスをとるために導入された。
論文 参考訳(メタデータ) (2025-07-21T16:21:47Z) - BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。
テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。
我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文 参考訳(メタデータ) (2025-07-11T14:02:54Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models [13.157596316463621]
下流タスクにおける分散シフトに起因する性能劣化に対する解決策として,視覚言語モデルのテスト時適応(TTA)が注目されている。
我々は、包括的で信頼性の高いキャッシュ機構を導入し、キャッシュ、残留、ガウス(CRG)と呼ばれる新しいゼロショットTTA手法を提案する。
13のベンチマーク実験の結果、CRGは最先端のTTA法よりも優れており、例外的な堅牢性と適応性を示している。
論文 参考訳(メタデータ) (2025-03-24T04:32:35Z) - Confidence-calibrated covariate shift correction for few-shot classification in Vision-Language Models [2.6061534894032907]
我々は,共変量シフトを緩和するためのフィッシャー情報ペナルティと,誤分類例における過度な信頼を減らすための信頼ミスアライメントペナルティ(CMP)を組み合わせた統一的アプローチであるtextbfConfidence-Calibrated Covariate Shift Correction (CalShift)を導入する。
CalShiftはモデルのキャリブレーションを大幅に改善し、期待エラー(ECE)を最大5.82%削減する。
この結果から,CalShiftは実世界のアプリケーション向けに,堅牢で信頼性の高い低ショットビジョン言語システムを構築するための有望な戦略であることを強調した。
論文 参考訳(メタデータ) (2025-02-11T10:10:15Z) - DRIVE: Dual-Robustness via Information Variability and Entropic Consistency in Source-Free Unsupervised Domain Adaptation [10.127634263641877]
ラベル付きデータなしで機械学習モデルを新しいドメインに適応させることは、医療画像、自律運転、リモートセンシングといったアプリケーションにおいて重要な課題である。
Source-Free Unsupervised Domain Adaptation (SFUDA)と呼ばれるこのタスクでは、未ラベルのターゲットデータのみを使用して、トレーニング済みのモデルをターゲットドメインに適応させる。
既存のSFUDAメソッドは、しばしば単一モデルアーキテクチャに依存し、ターゲットドメインにおける不確実性と可変性に悩まされる。
本稿では、2重モデルアーキテクチャを利用した新しいSFUDAフレームワークDRIVEを提案する。
論文 参考訳(メタデータ) (2024-11-24T20:35:04Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。