Fugu-MT 論文翻訳(概要): Prompting without Panic: Attribute-aware, Zero-shot, Test-Time Calibration

論文の概要: Prompting without Panic: Attribute-aware, Zero-shot, Test-Time Calibration

arxiv url: http://arxiv.org/abs/2506.22819v1
Date: Sat, 28 Jun 2025 08:57:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.588561
Title: Prompting without Panic: Attribute-aware, Zero-shot, Test-Time Calibration
Title（参考訳）: パニックのないプロンプト:属性認識、ゼロショット、テスト時間校正
Authors: Ramya Hebbalaguppe, Tamoghno Kandar, Abhinav Nagpal, Chetan Arora,
Abstract要約: テスト時間プロンプトチューニング(TPT)によるキャリブレーションを効果的に改善できることを示す。本法では,バニラTPTが11.7例,C-TPTが6.12例,DiffTPTが6.78例,CVPR'23例,PromptAlignが8.43例であった。
参考スコア（独自算出の注目度）: 7.507012900046326
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLM) have demonstrated impressive performance in image recognition by leveraging self-supervised training on large datasets. Their performance can be further improved by adapting to the test sample using test-time prompt tuning (TPT). Unfortunately, the singular focus of TPT approaches on improving the accuracy suffers from tunnel vision, and leads to degradation in confidence calibration. This limits the applicability of TPT in critical applications. We make three contributions in this work. (1) We posit that random or naive initialization of prompts leads to overfitting on a particular test sample, and is the main reason for miscalibration of the VLM after TPT. To mitigate the problem, we propose careful initialization of test time prompt using prior knowledge about the target label attributes from a large language model (LLM); (2) To further maintain the quality of prompts during \tpt, we propose a novel regularization loss to reduce intraclass distance, and increase inter-class distance between the learnt Through extensive experiments on different CLIP architectures and 15 datasets, we show that our approach can effectively improve the calibration after TPT. We report an average expected calibration error (ECE) of 4.11 with our method, TCA, compared to 11.7 for vanilla TPT, 6.12 for C-TPT (ICLR'24), 6.78 for DiffTPT (CVPR'23), and 8.43 for PromptAlign (NeurIPS'23). The code is publicly accessible at: https://github.com/rhebbalaguppe/TCA_PromptWithoutPanic.
Abstract（参考訳）: 視覚言語モデル(VLM)は、大規模データセットでの自己教師付きトレーニングを活用することで、画像認識における印象的な性能を実証している。テスト時間プロンプトチューニング(TPT)を使用してテストサンプルに適応することにより、パフォーマンスをさらに向上することができる。残念なことに、TPTの精度向上への特異なアプローチはトンネルビジョンに悩まされ、信頼性の校正が低下する。これにより、クリティカルアプリケーションにおけるTPTの適用性が制限される。私たちはこの仕事に3つの貢献をしている。 1) プロンプトのランダムあるいはナイーブな初期化は, 特定の試験試料に過度な適合をもたらすと仮定し, TPT後のVLMの誤校正の主な原因である。問題を緩和するため,大規模言語モデル (LLM) から対象ラベル属性に関する事前知識を用いて,テスト時間プロンプトを慎重に初期化すること,(2) tpt におけるプロンプトの質をさらに向上するために,クラス内距離を削減し,学習者間のクラス間距離を増大させる新たな正規化損失を提案する。本手法では,バニラTPTは11.7,C-TPTは6.12,DiffTPTは6.78,PromptAlignは8.43であった。コードは、https://github.com/rhebbalaguppe/TCA_PromptWithoutPanic.comで公開されている。

関連論文リスト

O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models [17.56932003351322]
視覚言語モデル(VLM)のテスト時プロンプトチューニングは、微調整なしでラベルのないデータで学習できることから注目されている。結果として得られたモデルはキャリブレーションの低さを示す傾向にあり、これらのモデルの信頼性と信頼性に疑問を呈する。我々は、学習可能なプロンプトに対応するテキストの特徴に直交制約を導入する、O-TPTと呼ばれる新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-03-15T11:45:54Z)
Test-time Loss Landscape Adaptation for Zero-Shot Generalization in Vision-Language Models [3.1099372412393524]
本稿では,ロスランドスケープの観点から,既存の手法におけるバックプロパゲーションの不要な性質を明らかにする。テストタイムロスランドスケープ適応(TLLA)と呼ばれるシンプルだが効果的なフレームワークを提案する。即時チューニングの段階では、最小限のトレーニングを識別するために、シャープネス・アウェア・プロンプト・チューニング(SAPT)法が導入された。テスト段階では、平らなミニマのアライメントを確保するためにシャープネスに基づくテストサンプル選択(STSS)アプローチが使用される。
論文参考訳（メタデータ） (2025-01-31T03:10:48Z)
TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。 TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文参考訳（メタデータ） (2024-11-20T08:58:59Z)
Efficient Test-Time Prompt Tuning for Vision-Language Models [41.90997623029582]
Self-TPTは、効率的なテストタイムプロンプトチューニングにセルフ教師付き学習を活用するフレームワークである。本稿では,Self-TPTが推論コストを大幅に削減するだけでなく,最先端の性能も向上することを示す。
論文参考訳（メタデータ） (2024-08-11T13:55:58Z)
C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion [54.81141583427542]
深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。本稿では,CLIPの固有特性を利用したテスト時プロンプトチューニング時の校正について検討する。そこで本研究では,C-TPT(Calibrated Test-time Prompt Tuning)という,キャリブレーションの強化によるテスト時間中のプロンプトの最適化手法を提案する。
論文参考訳（メタデータ） (2024-03-21T04:08:29Z)
Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文参考訳（メタデータ） (2024-02-04T07:49:02Z)
Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。 DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文参考訳（メタデータ） (2023-08-11T09:36:31Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。 TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文参考訳（メタデータ） (2022-09-15T17:55:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。