論文の概要: Improving Calibration in Test-Time Prompt Tuning for Vision-Language Models via Data-Free Flatness-Aware Prompt Pretraining
- arxiv url: http://arxiv.org/abs/2604.27715v1
- Date: Thu, 30 Apr 2026 11:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.056466
- Title: Improving Calibration in Test-Time Prompt Tuning for Vision-Language Models via Data-Free Flatness-Aware Prompt Pretraining
- Title(参考訳): データフリーフラットネス・アウェア・プロンプト事前学習による視覚言語モデルのテスト時間プロンプトチューニングにおける校正の改善
- Authors: Hyeonseo Jang, Jaebyeong Jeon, Joong-Won Hwang, Kibok Lee,
- Abstract要約: テスト時プロンプトチューニング(TPT)は、視覚言語モデルの適応性を高めるための有望な手法として登場した。
以前の研究では、PTTは校正の不十分なモデルをしばしば生成し、予測の信頼性に関する懸念を提起している。
適応に先立って、損失景観の平坦な領域内でプロンプトを初期化する、TPTのためのシンプルで効果的な事前訓練フレームワークであるFPPを導入する。
- 参考スコア(独自算出の注目度): 3.9486037760311725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time prompt tuning (TPT) has emerged as a promising technique for enhancing the adaptability of vision-language models by optimizing textual prompts using unlabeled test data. However, prior studies have observed that TPT often produces poorly calibrated models, raising concerns about the reliability of their predictions. Recent works address this issue by incorporating additional regularization terms that constrain model outputs, which improve calibration but often degrade performance. In this work, we reveal that these regularization strategies implicitly encourage optimization toward flatter minima, and that the sharpness of the loss landscape around adapted prompts is a key factor governing calibration quality. Motivated by this observation, we introduce Flatness-aware Prompt Pretraining (FPP), a simple yet effective pretraining framework for TPT that initializes prompts within flatter regions of the loss landscape prior to adaptation. We show that simply replacing the initialization in existing TPT pipelines--without modifying any other components--is sufficient to improve both calibration and performance. Notably, FPP requires no labeled data and incurs no additional computational costs during test-time tuning, making it highly practical for real-world deployment. The code is available at: https://github.com/YonseiML/fpp.
- Abstract(参考訳): テスト時プロンプトチューニング(TPT)は、未ラベルのテストデータを用いてテキストプロンプトを最適化することにより、視覚言語モデルの適応性を高めるための有望な手法として登場した。
しかし、以前の研究では、PTTは校正の不十分なモデルをしばしば生成し、予測の信頼性に関する懸念を提起している。
最近の研究は、キャリブレーションを改善するが、しばしば性能を低下させるような、モデル出力を制約する追加の正規化項を導入することでこの問題に対処している。
本研究では,これらの正規化戦略が平らなミニマへの最適化を暗黙的に促進し,適応されたプロンプト周辺における損失景観の鋭さがキャリブレーション品質を規定する重要な要因であることを明らかにする。
本研究は,TPTのための簡易かつ効果的な事前学習フレームワークであるFPP(Flatness-aware Prompt Pretraining)を導入し,その適用前に損失景観の平坦な領域内でプロンプトを初期化する。
既存のTPTパイプラインの初期化を、他のコンポーネントを変更せずに置き換えるだけで、キャリブレーションと性能の両方を改善することができることを示す。
特に、FPPはラベル付きデータを必要とせず、テスト時間チューニング中に追加の計算コストを発生させないため、実世界のデプロイに非常に実用的である。
コードは、https://github.com/YonseiML/fpp.comで入手できる。
関連論文リスト
- O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models [17.56932003351322]
視覚言語モデル(VLM)のテスト時プロンプトチューニングは、微調整なしでラベルのないデータで学習できることから注目されている。
結果として得られたモデルはキャリブレーションの低さを示す傾向にあり、これらのモデルの信頼性と信頼性に疑問を呈する。
我々は、学習可能なプロンプトに対応するテキストの特徴に直交制約を導入する、O-TPTと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-15T11:45:54Z) - Test-time Loss Landscape Adaptation for Zero-Shot Generalization in Vision-Language Models [3.1099372412393524]
本稿では,ロスランドスケープの観点から,既存の手法におけるバックプロパゲーションの不要な性質を明らかにする。
テストタイムロスランドスケープ適応(TLLA)と呼ばれるシンプルだが効果的なフレームワークを提案する。
即時チューニングの段階では、最小限のトレーニングを識別するために、シャープネス・アウェア・プロンプト・チューニング(SAPT)法が導入された。
テスト段階では、平らなミニマのアライメントを確保するためにシャープネスに基づくテストサンプル選択(STSS)アプローチが使用される。
論文 参考訳(メタデータ) (2025-01-31T03:10:48Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion [54.81141583427542]
深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。
本稿では,CLIPの固有特性を利用したテスト時プロンプトチューニング時の校正について検討する。
そこで本研究では,C-TPT(Calibrated Test-time Prompt Tuning)という,キャリブレーションの強化によるテスト時間中のプロンプトの最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T04:08:29Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。