論文の概要: A-TPT: Angular Diversity Calibration Properties for Test-Time Prompt Tuning of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.26441v1
- Date: Thu, 30 Oct 2025 12:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.808747
- Title: A-TPT: Angular Diversity Calibration Properties for Test-Time Prompt Tuning of Vision-Language Models
- Title(参考訳): A-TPT:視覚言語モデルの試験時間プロンプトチューニングのための角の多様性校正特性
- Authors: Shihab Aaqil Ahamed, Udaya S. K. P. Miriya Thanthrige, Ranga Rodrigo, Muhammad Haris Khan,
- Abstract要約: テスト時プロンプトチューニング(TPT)は、ラベル付きデータに頼ることなく、大きな視覚言語モデル(VLM)を未確認タスクに適用するための有望な手法として登場した。
A-TPTは,正規化されたテキスト特徴の分布の均一性を促進するために,角の多様性を導入する新しいTPTフレームワークである。
本手法は, 平均キャリブレーション誤差を低減するため, 最先端のTPT手法を一貫して超越していることを示す。
- 参考スコア(独自算出の注目度): 19.257897956175814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time prompt tuning (TPT) has emerged as a promising technique for adapting large vision-language models (VLMs) to unseen tasks without relying on labeled data. However, the lack of dispersion between textual features can hurt calibration performance, which raises concerns about VLMs' reliability, trustworthiness, and safety. Current TPT approaches primarily focus on improving prompt calibration by either maximizing average textual feature dispersion or enforcing orthogonality constraints to encourage angular separation. However, these methods may not always have optimal angular separation between class-wise textual features, which implies overlooking the critical role of angular diversity. To address this, we propose A-TPT, a novel TPT framework that introduces angular diversity to encourage uniformity in the distribution of normalized textual features induced by corresponding learnable prompts. This uniformity is achieved by maximizing the minimum pairwise angular distance between features on the unit hypersphere. We show that our approach consistently surpasses state-of-the-art TPT methods in reducing the aggregate average calibration error while maintaining comparable accuracy through extensive experiments with various backbones on different datasets. Notably, our approach exhibits superior zero-shot calibration performance on natural distribution shifts and generalizes well to medical datasets. We provide extensive analyses, including theoretical aspects, to establish the grounding of A-TPT. These results highlight the potency of promoting angular diversity to achieve well-dispersed textual features, significantly improving VLM calibration during test-time adaptation. Our code will be made publicly available.
- Abstract(参考訳): テスト時プロンプトチューニング(TPT)は、ラベル付きデータに頼ることなく、大きな視覚言語モデル(VLM)を未確認タスクに適用するための有望な手法として登場した。
しかし、テキスト特徴間の分散が欠如していると校正性能が損なわれ、VLMの信頼性、信頼性、安全性が懸念される。
現在のTPTアプローチは主に、平均的なテキスト特徴分散を最大化するか、角分離を促進するために直交制約を強制することにより、迅速な校正の改善に重点を置いている。
しかしながら、これらの手法は、常にクラスワイドテキスト特徴間の最適角分離を持つとは限らないため、角多様性の重要な役割を見越すことになる。
そこで本研究では, 学習可能なプロンプトによって誘導される正規化テキスト特徴の分布の均一性を促進するために, 角多様性を導入した新しいTPTフレームワークであるA-TPTを提案する。
この均一性は、単位超球面上の特徴間の最小対角距離を最大化することによって達成される。
提案手法は,異なるデータセット上の様々なバックボーンを用いた広範囲な実験により,比較精度を維持しつつ,平均キャリブレーション誤差を減らし,最新のTPT手法を一貫して超えることを示す。
特に,本手法は,自然分布シフトに対して優れたゼロショット校正性能を示し,医用データセットによく適合する。
我々は、A-TPTの基盤を確立するために、理論的な側面を含む広範な分析を行う。
これらの結果は,十分に分散したテキスト特徴を達成し,テスト時間適応時のVLMキャリブレーションを著しく向上させるために,角の多様性を促進する能力を強調した。
私たちのコードは公開されます。
関連論文リスト
- D-TPT: Dimensional Entropy Maximization for Calibrating Test-Time Prompt Tuning in Vision-Language Models [5.770351255180494]
テスト時適応パラダイムは、ドメインシフトに対する柔軟性を提供する。
VLM(Vision-Language Models)は、様々な下流タスクに一般化機能を利用する。
論文 参考訳(メタデータ) (2025-10-10T15:27:44Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - CLIPTTA: Robust Contrastive Vision-Language Test-Time Adaptation [15.732351927470452]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット能力を示すが、分散シフトの下では一般化に失敗することが多い。
テスト時間適応(TTA)は、一般にエントロピーの最小化を通じて、ラベル付きデータなしで推論時にモデルを更新することを可能にする。
CLIPTTAは,CLIPの事前学習目標に沿ったソフトコントラスト損失を利用する視覚言語モデルのための,新しい勾配に基づくTTA手法である。
論文 参考訳(メタデータ) (2025-07-18T18:32:17Z) - O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models [17.56932003351322]
視覚言語モデル(VLM)のテスト時プロンプトチューニングは、微調整なしでラベルのないデータで学習できることから注目されている。
結果として得られたモデルはキャリブレーションの低さを示す傾向にあり、これらのモデルの信頼性と信頼性に疑問を呈する。
我々は、学習可能なプロンプトに対応するテキストの特徴に直交制約を導入する、O-TPTと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-15T11:45:54Z) - C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion [54.81141583427542]
深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。
本稿では,CLIPの固有特性を利用したテスト時プロンプトチューニング時の校正について検討する。
そこで本研究では,C-TPT(Calibrated Test-time Prompt Tuning)という,キャリブレーションの強化によるテスト時間中のプロンプトの最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T04:08:29Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - ADEPT: A DEbiasing PrompT Framework [64.54665501064659]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。
意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。
本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:41:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。