Fugu-MT 論文翻訳(概要): CLIPArTT: Light-weight Adaptation of CLIP to New Domains at Test Time

論文の概要: CLIPArTT: Light-weight Adaptation of CLIP to New Domains at Test Time

arxiv url: http://arxiv.org/abs/2405.00754v1
Date: Wed, 1 May 2024 07:24:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 20:52:21.421003
Title: CLIPArTT: Light-weight Adaptation of CLIP to New Domains at Test Time
Title（参考訳）: CLIPArTT: CLIPのテスト時間における新しいドメインへの軽量適応
Authors: Gustavo Adolfo Vargas Hakim, David Osowiechi, Mehrdad Noori, Milad Cheraghalikhani, Ali Bahri, Moslem Yazdanpanah, Ismail Ben Ayed, Christian Desrosiers,
Abstract要約: CLIP Adaptation duRing Test-Time(CLIPArTT)を導入する。これは、事前学習された視覚言語モデル(VLM)に対する完全なテスト時間適応(TTA)アプローチである。提案手法では,複数の予測クラスを1つの新しいテキストプロンプトに集約し,擬似ラベルとして入力を再分類する。以上の結果から,新たなトランスフォーメーションやトレーニング可能なモジュールを必要とせずに,CLIPArTTは非破損データセット間で動的にパフォーマンスを向上することがわかった。
参考スコア（独自算出の注目度）: 19.0284321951354
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Pre-trained vision-language models (VLMs), exemplified by CLIP, demonstrate remarkable adaptability across zero-shot classification tasks without additional training. However, their performance diminishes in the presence of domain shifts. In this study, we introduce CLIP Adaptation duRing Test-Time (CLIPArTT), a fully test-time adaptation (TTA) approach for CLIP, which involves automatic text prompts construction during inference for their use as text supervision. Our method employs a unique, minimally invasive text prompt tuning process, wherein multiple predicted classes are aggregated into a single new text prompt, used as pseudo label to re-classify inputs in a transductive manner. Additionally, we pioneer the standardization of TTA benchmarks (e.g., TENT) in the realm of VLMs. Our findings demonstrate that, without requiring additional transformations nor new trainable modules, CLIPArTT enhances performance dynamically across non-corrupted datasets such as CIFAR-10, corrupted datasets like CIFAR-10-C and CIFAR-10.1, alongside synthetic datasets such as VisDA-C. This research underscores the potential for improving VLMs' adaptability through novel test-time strategies, offering insights for robust performance across varied datasets and environments. The code can be found at: https://github.com/dosowiechi/CLIPArTT.git
Abstract（参考訳）: CLIPで実証された事前学習された視覚言語モデル(VLM)は、追加のトレーニングなしでゼロショット分類タスク間で顕著な適応性を示す。しかし、そのパフォーマンスはドメインシフトの存在によって低下する。本稿では,CLIPの完全テスト時間適応(TTA)アプローチであるCLIPArTT(CLIP Adaptation duRing Test-Time)を紹介する。提案手法では,複数の予測クラスを1つの新しいテキストプロンプトに集約し,擬似ラベルとして入力をトランスダクティブな方法で再分類する。さらに、VLMの領域におけるTTAベンチマーク(例えば、TENT)の標準化を開拓した。 CIFAR-10, CIFAR-10-C や CIFAR-10.1, VisDA-C などの合成データセットとともに, CIFAR-10, CIFAR-10.1, CIFAR-10-C, CIFAR-10.1 などの非故障データセットに対して,新たなトランスフォーメーションや新たなトレーニング可能なモジュールを必要とせずに, CLIPArTT は動的にパフォーマンスを向上する。この研究は、新しいテストタイム戦略を通じてVLMの適応性を向上させる可能性を強調し、さまざまなデータセットや環境にまたがる堅牢なパフォーマンスの洞察を提供する。コードは以下の通り。 https://github.com/dosowiechi/CLIPArTT.git

関連論文リスト

Unleashing the Potential of All Test Samples: Mean-Shift Guided Test-Time Adaptation [18.82879703518279]
既存のトレーニング不要なテスト時間適応手法は、CLIPの本来の機能空間内で厳密に動作する。我々は、k-nearest neighbors (kNN) Mean-Shiftを用いて、CLIP空間以外の特徴表現を強化する訓練不要のアプローチであるMS-TTAを提案する。
論文参考訳（メタデータ） (2025-07-01T06:22:00Z)
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文参考訳（メタデータ） (2025-03-27T17:59:58Z)
SCAP: Transductive Test-Time Adaptation via Supportive Clique-based Attribute Prompting [39.00953148964911]
ビジョン言語モデル(VLM)は、データ分散の変化に起因するドメインシフトに適応する際の課題に直面する。テスト時間適応(TTA)は、このような条件下でのVLM性能を高めるための有望なアプローチとして現れている。本稿では,テストバッチ間の微粒な属性プロンプトを生成することで適応性を高めるために,SCAP(Supportive Clique-based Attribute Prompting)を提案する。
論文参考訳（メタデータ） (2025-03-17T06:50:57Z)
Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文参考訳（メタデータ） (2024-11-26T00:15:37Z)
WATT: Weight Average Test-Time Adaptation of CLIP [17.74824534094739]
完全テスト時間適応の先駆的アプローチであるCLIPのウェイト平均テスト時間適応(WATT)について述べる。提案手法では,CLIPの既存のフレームワークを拡張し,テキストプロンプトに多種多様なテンプレートを用いる。本研究は,WATTが多様なデータセットにまたがる性能向上に有効であることを示すものである。
論文参考訳（メタデータ） (2024-06-19T22:37:42Z)
DeCoOp: Robust Prompt Tuning with Out-of-Distribution Detection [52.100335904875614]
そこで我々は,新しいクラス検出器とサブクラス化器を導入し,基本クラスと新クラスの識別性をさらに向上させる,新しいプロンプトチューニング手法であるDecomposed Context Optimization(DeCoOp)を提案する。 11のベンチマークデータセットによる実験結果から、DePTの有効性が検証され、DeCoOpが現在の最先端手法よりも優れており、平均精度が2%向上していることが示された。
論文参考訳（メタデータ） (2024-06-01T07:46:42Z)
Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。 TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文参考訳（メタデータ） (2024-03-19T17:54:34Z)
Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文参考訳（メタデータ） (2023-11-02T17:59:32Z)
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文参考訳（メタデータ） (2023-03-09T09:05:47Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。 TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文参考訳（メタデータ） (2022-09-15T17:55:11Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。