論文の概要: Explicit Uncertainty Modeling for Active CLIP Adaptation with Dual Prompt Tuning
- arxiv url: http://arxiv.org/abs/2602.04340v1
- Date: Wed, 04 Feb 2026 09:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.443648
- Title: Explicit Uncertainty Modeling for Active CLIP Adaptation with Dual Prompt Tuning
- Title(参考訳): Dual Prompt Tuningを用いたアクティブCLIP適応のための明示的不確実性モデリング
- Authors: Qian-Wei Wang, Yaguang Song, Shu-Tao Xia,
- Abstract要約: デュアルプロンプトチューニングに基づくアクティブCLIP適応のためのロバストな不確実性モデリングフレームワークを提案する。
提案手法は,同一のアノテーション予算の下で,既存のアクティブラーニング手法よりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 51.99383151474742
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pre-trained vision-language models such as CLIP exhibit strong transferability, yet adapting them to downstream image classification tasks under limited annotation budgets remains challenging. In active learning settings, the model must select the most informative samples for annotation from a large pool of unlabeled data. Existing approaches typically estimate uncertainty via entropy-based criteria or representation clustering, without explicitly modeling uncertainty from the model perspective. In this work, we propose a robust uncertainty modeling framework for active CLIP adaptation based on dual-prompt tuning. We introduce two learnable prompts in the textual branch of CLIP. The positive prompt enhances the discriminability of task-specific textual embeddings corresponding to light-weight tuned visual embeddings, improving classification reliability. Meanwhile, the negative prompt is trained in an reversed manner to explicitly model the probability that the predicted label is correct, providing a principled uncertainty signal for guiding active sample selection. Extensive experiments across different fine-tuning paradigms demonstrate that our method consistently outperforms existing active learning methods under the same annotation budget.
- Abstract(参考訳): CLIPのような事前学習された視覚言語モデルは、強い伝達性を示すが、限られたアノテーション予算の下では、下流の画像分類タスクに適応するのは難しい。
アクティブな学習環境では、モデルはラベルなしデータの大規模なプールからアノテーションの最も有益なサンプルを選択する必要がある。
既存のアプローチでは、モデルの観点から不確実性を明示的にモデル化することなく、エントロピーベースの基準や表現クラスタリングを通じて不確実性を推定するのが一般的である。
本稿では,デュアルプロンプトチューニングに基づくアクティブCLIP適応のためのロバストな不確実性モデリングフレームワークを提案する。
CLIPのテキストブランチに2つの学習可能なプロンプトを導入する。
肯定的なプロンプトは、軽量な調整された視覚的埋め込みに対応するタスク固有のテキスト埋め込みの識別可能性を高め、分類信頼性を向上させる。
一方、負のプロンプトを逆の方法でトレーニングし、予測ラベルが正しい確率を明示的にモデル化し、アクティブなサンプル選択を導くための原則化された不確実性信号を提供する。
異なる微調整パラダイムにわたる広範囲な実験により、我々の手法は、同一のアノテーション予算の下で既存のアクティブラーニング手法を一貫して上回っていることを示す。
関連論文リスト
- Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner [46.140724013144194]
CLIPのような大規模視覚言語モデル(VLM)は、ゼロショットの強い一般化を示すが、下流のタスクに適応するためには通常、コストのかかるラベル付きデータを必要とする。
既存の教師なしの自己学習手法は擬似ラベル化に依存しているが、信頼できない信頼度フィルタリング、確認バイアス、低信頼サンプルの未利用に悩まされることが多い。
我々は,デュアルモデル,クロスモーダル協調機構を通じてラベルのないデータを活用する,教師なし適応フレームワークであるCollaborative Fine-Tuning (CoFT)を提案する。
論文 参考訳(メタデータ) (2026-02-04T09:00:12Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Post-hoc Uncertainty Learning using a Dirichlet Meta-Model [28.522673618527417]
本研究では,不確実性定量化能力の優れた事前学習モデルを構築するための新しいベイズメタモデルを提案する。
提案手法は追加のトレーニングデータを必要としないため,不確かさの定量化に十分な柔軟性がある。
提案するメタモデルアプローチの柔軟性と,これらのアプリケーションに対する優れた経験的性能を実証する。
論文 参考訳(メタデータ) (2022-12-14T17:34:11Z) - Constraining Representations Yields Models That Know What They Don't
Know [2.729898906885749]
ニューラルネットワークのよく知られた障害モードは、誤った予測を確実に返すことである。
この研究は、これらの問題に広く一般的な方法で対処するための新しい方向性を示す。
私たちは各クラスにユニークな、固定された、ランダムに生成されたバイナリベクタを割り当てます。
我々は、入力サンプルのクラスに従って、そのクロスディープなアクティベーションパターンが適切なクラスコードを予測するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T18:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。