論文の概要: SCAP: Transductive Test-Time Adaptation via Supportive Clique-based Attribute Prompting
- arxiv url: http://arxiv.org/abs/2503.12866v1
- Date: Mon, 17 Mar 2025 06:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:38.887776
- Title: SCAP: Transductive Test-Time Adaptation via Supportive Clique-based Attribute Prompting
- Title(参考訳): SCAP: Clique-based Attribute Promptingによるトランスダクティブテスト時間適応
- Authors: Chenyu Zhang, Kunlun Xu, Zichen Liu, Yuxin Peng, Jiahuan Zhou,
- Abstract要約: ビジョン言語モデル(VLM)は、データ分散の変化に起因するドメインシフトに適応する際の課題に直面する。
テスト時間適応(TTA)は、このような条件下でのVLM性能を高めるための有望なアプローチとして現れている。
本稿では,テストバッチ間の微粒な属性プロンプトを生成することで適応性を高めるために,SCAP(Supportive Clique-based Attribute Prompting)を提案する。
- 参考スコア(独自算出の注目度): 39.00953148964911
- License:
- Abstract: Vision-language models (VLMs) encounter considerable challenges when adapting to domain shifts stemming from changes in data distribution. Test-time adaptation (TTA) has emerged as a promising approach to enhance VLM performance under such conditions. In practice, test data often arrives in batches, leading to increasing interest in the transductive TTA setting. However, existing TTA methods primarily focus on individual test samples, overlooking crucial cross-sample correlations within a batch. While recent ViT-based TTA methods have introduced batch-level adaptation, they remain suboptimal for VLMs due to inadequate integration of the text modality. To address these limitations, we propose a novel transductive TTA framework, Supportive Clique-based Attribute Prompting (SCAP), which effectively combines visual and textual information to enhance adaptation by generating fine-grained attribute prompts across test batches. SCAP first forms supportive cliques of test samples in an unsupervised manner based on visual similarity and learns an attribute prompt for each clique, capturing shared attributes critical for adaptation. For each test sample, SCAP aggregates attribute prompts from its associated cliques, providing enriched contextual information. To ensure adaptability over time, we incorporate a retention module that dynamically updates attribute prompts and their associated attributes as new data arrives. Comprehensive experiments across multiple benchmarks demonstrate that SCAP outperforms existing state-of-the-art methods, significantly advancing VLM generalization under domain shifts. Our code is available at https://github.com/zhoujiahuan1991/CVPR2025-SCAP.
- Abstract(参考訳): ビジョン言語モデル(VLM)は、データ分散の変化に起因するドメインシフトへの適応において、かなりの課題に直面する。
テスト時間適応(TTA)は、このような条件下でのVLM性能を高めるための有望なアプローチとして現れている。
実際、テストデータはしばしばバッチで到着し、トランスダクティブなTTA設定への関心が高まる。
しかし、既存のTTAメソッドは主に個々のテストサンプルに焦点を当てており、バッチ内の重要なクロスサンプル相関を見越している。
最近のVTベースのTTA手法はバッチレベル適応を導入したが、テキストのモダリティが不十分なため、VLMのサブ最適化に留まっている。
これらの制約に対処するため,我々は,視覚情報とテキスト情報を効果的に組み合わせて,テストバッチ間できめ細かい属性プロンプトを生成することで適応性を高める,新しいトランスダクティブなTTAフレームワークであるSupportive Clique-based Attribute Prompting (SCAP)を提案する。
SCAPはまず、視覚的類似性に基づいて、教師なしの方法でテストサンプルの支持的傾きを形成し、各傾きに対する属性プロンプトを学習し、適応に不可欠な共有属性をキャプチャする。
テストサンプル毎に、SCAPは属性プロンプトを関連付けられたcliqueから集約し、豊富なコンテキスト情報を提供する。
時間とともに適応性を確保するために,属性プロンプトとその関連属性を動的に更新する保持モジュールを組み込む。
複数のベンチマークによる総合的な実験により、SCAPは既存の最先端手法よりも優れており、ドメインシフト下でのVLM一般化が著しく向上していることが示された。
私たちのコードはhttps://github.com/zhoujiahuan 1991/CVPR2025-SCAPで公開されています。
関連論文リスト
- Realistic Test-Time Adaptation of Vision-Language Models [23.972884634610413]
VLM(Vision-Language Models)は、予測性能を改善するために広く活用されている。
トランスダクティブまたはテストタイム適応(TTA)に関する以前の研究は、しばしばデータ分布について強い仮定を下す。
私たちの作業は、これらの好ましいデプロイメントシナリオに挑戦し、より現実的な評価フレームワークを導入します。
論文 参考訳(メタデータ) (2025-01-07T12:17:25Z) - Test-time Alignment-Enhanced Adapter for Vision-Language Models [6.549059375031384]
事前学習型視覚言語モデル(VLM)によるテスト時間適応は、テストフェーズにおける分布シフトの問題に対処するために注目が集まっている。
テスト時間アライメント拡張アダプタ(TAEA)と呼ばれる新しいアプローチを導入し、テストフェーズ中にテキスト機能を調整するために、テストサンプルでアダプタをトレーニングする。
論文 参考訳(メタデータ) (2024-11-24T06:43:38Z) - WATT: Weight Average Test-Time Adaptation of CLIP [17.74824534094739]
完全テスト時間適応の先駆的アプローチであるCLIPのウェイト平均テスト時間適応(WATT)について述べる。
提案手法では,CLIPの既存のフレームワークを拡張し,テキストプロンプトに多種多様なテンプレートを用いる。
本研究は,WATTが多様なデータセットにまたがる性能向上に有効であることを示すものである。
論文 参考訳(メタデータ) (2024-06-19T22:37:42Z) - CLIPArTT: Adaptation of CLIP to New Domains at Test Time [19.0284321951354]
CLIP Adaptation duRing Test-Time(CLIPArTT)を導入する。これは、事前学習された視覚言語モデル(VLM)に対する完全なテスト時間適応(TTA)アプローチである。
提案手法では,複数の予測クラスを1つの新しいテキストプロンプトに集約し,入力を再分類するためにemphpseudoラベルとして使用する,ユニークで最小限の侵襲的なテキストプロンプトチューニング処理を採用している。
以上の結果から,新たなトランスフォーメーションやトレーニング可能なモジュールを必要とせずに,CLIPArTTは非破損データセット間で動的にパフォーマンスを向上することがわかった。
論文 参考訳(メタデータ) (2024-05-01T07:24:30Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。