論文の概要: Multi-Cache Enhanced Prototype Learning for Test-Time Generalization of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.01225v1
- Date: Sat, 02 Aug 2025 06:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.770116
- Title: Multi-Cache Enhanced Prototype Learning for Test-Time Generalization of Vision-Language Models
- Title(参考訳): 視覚言語モデルのテスト時間一般化のためのマルチキャッシュ強化プロトタイプ学習
- Authors: Xinyu Chen, Haotian Zhai, Can Zhang, Xiupeng Shi, Ruirui Li,
- Abstract要約: ゼロショット設定では、テスト時間適応はテストフェーズからのラベルなしデータを用いて事前訓練されたモデルを調整し、未知のテスト分布の性能を向上させる。
既存のキャッシュ強化TTA法は、クラス内のコンパクトさを前提として、プロトタイプ構築のためのサンプルを選択するために低エントロピー基準に依存している。
本研究は,キャッシュ強化性能とクラス内コンパクト性との正の相関性を明らかにする。
- 参考スコア(独自算出の注目度): 15.097458160008957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In zero-shot setting, test-time adaptation adjusts pre-trained models using unlabeled data from the test phase to enhance performance on unknown test distributions. Existing cache-enhanced TTA methods rely on a low-entropy criterion to select samples for prototype construction, assuming intra-class compactness. However, low-entropy samples may be unreliable under distribution shifts, and the resulting prototypes may not ensure compact intra-class distributions. This study identifies a positive correlation between cache-enhanced performance and intra-class compactness. Based on this observation, we propose a Multi-Cache enhanced Prototype-based Test-Time Adaptation (MCP) featuring three caches: an entropy cache for initializing prototype representations with low-entropy samples, an align cache for integrating visual and textual information to achieve compact intra-class distributions, and a negative cache for prediction calibration using high-entropy samples. We further developed MCP++, a framework incorporating cross-modal prototype alignment and residual learning, introducing prototype residual fine-tuning. Comparative and ablation experiments across 15 downstream tasks demonstrate that the proposed method and framework achieve state-of-the-art generalization performance.
- Abstract(参考訳): ゼロショット設定では、テスト時間適応はテストフェーズからのラベルなしデータを用いて事前訓練されたモデルを調整し、未知のテスト分布の性能を向上させる。
既存のキャッシュ強化TTA法は、クラス内のコンパクトさを前提として、プロトタイプ構築のためのサンプルを選択するために低エントロピー基準に依存している。
しかし、低エントロピーサンプルは分布シフトでは信頼性が低く、その結果のプロトタイプはクラス内分布のコンパクトさを保証できない。
本研究は,キャッシュ強化性能とクラス内コンパクト性との正の相関性を明らかにする。
本稿では,低エントロピーサンプルを用いてプロトタイプ表現を初期化するためのエントロピーキャッシュ,コンパクトなクラス内分布を実現するための視覚情報とテキスト情報を統合するアライメントキャッシュ,高エントロピーサンプルを用いた予測校正のための負キャッシュの3つのキャッシュを特徴とするマルチキャッシュ拡張プロトタイプベーステスト時間適応(MCP)を提案する。
我々はさらに,クロスモーダルなプロトタイプアライメントと残差学習を組み込んだ MCP++ を開発し,プロトタイプ残差微調整を導入した。
15のダウンストリームタスクの比較およびアブレーション実験により,提案手法とフレームワークが最先端の一般化性能を実現することを示す。
関連論文リスト
- Probabilistic Prototype Calibration of Vision-Language Models for Generalized Few-shot Semantic Segmentation [75.18058114915327]
一般化されたFew-Shot Semanticnative(GFSS)は、いくつかの注釈付き例だけでセグメンテーションモデルを新しいクラスに拡張することを目的としている。
プリトレーニング済みCLIPのマルチモーダルプロトタイプ上での確率的プロトタイプ校正フレームワークであるFewCLIPを提案する。
FewCLIPはGFSSとクラスインクリメンタルセッティングの両方で最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2025-06-28T18:36:22Z) - Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models [13.157596316463621]
下流タスクにおける分散シフトに起因する性能劣化に対する解決策として,視覚言語モデルのテスト時適応(TTA)が注目されている。
我々は、包括的で信頼性の高いキャッシュ機構を導入し、キャッシュ、残留、ガウス(CRG)と呼ばれる新しいゼロショットTTA手法を提案する。
13のベンチマーク実験の結果、CRGは最先端のTTA法よりも優れており、例外的な堅牢性と適応性を示している。
論文 参考訳(メタデータ) (2025-03-24T04:32:35Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Training-Free Unsupervised Prompt for Vision-Language Models [27.13778811871694]
本研究では,表現能力の保持と類似性に基づく予測確率の残差による強化を図るために,TFUP(Training-Free Unsupervised Prompts)を提案する。
TFUPは、複数の分類データセットのトレーニングベースメソッドを超え、驚くべきパフォーマンスを達成する。
TFUP-Tは,複数のベンチマークにおける教師なしおよび少数ショット適応手法と比較して,最先端の分類性能が向上する。
論文 参考訳(メタデータ) (2024-04-25T05:07:50Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。