論文の概要: Doubly Debiased Test-Time Prompt Tuning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.11690v1
- Date: Wed, 12 Nov 2025 09:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.000362
- Title: Doubly Debiased Test-Time Prompt Tuning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための二重バイアステスト時間プロンプトチューニング
- Authors: Fei Song, Yi Li, Rui Wang, Jiahuan Zhou, Changwen Zheng, Jiangmeng Li,
- Abstract要約: 視覚言語モデルに対するテスト時プロンプトチューニングは、ゼロショット設定下での素晴らしい一般化機能を示している。
我々は、モデルとデータの観点から、迅速な最適化バイアスの根底にある原因を分析する。
- 参考スコア(独自算出の注目度): 43.35073848153914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time prompt tuning for vision-language models has demonstrated impressive generalization capabilities under zero-shot settings. However, tuning the learnable prompts solely based on unlabeled test data may induce prompt optimization bias, ultimately leading to suboptimal performance on downstream tasks. In this work, we analyze the underlying causes of prompt optimization bias from both the model and data perspectives. In terms of the model, the entropy minimization objective typically focuses on reducing the entropy of model predictions while overlooking their correctness. This can result in overconfident yet incorrect outputs, thereby compromising the quality of prompt optimization. On the data side, prompts affected by optimization bias can introduce misalignment between visual and textual modalities, which further aggravates the prompt optimization bias. To this end, we propose a Doubly Debiased Test-Time Prompt Tuning method. Specifically, we first introduce a dynamic retrieval-augmented modulation module that retrieves high-confidence knowledge from a dynamic knowledge base using the test image feature as a query, and uses the retrieved knowledge to modulate the predictions. Guided by the refined predictions, we further develop a reliability-aware prompt optimization module that incorporates a confidence-based weighted ensemble and cross-modal consistency distillation to impose regularization constraints during prompt tuning. Extensive experiments across 15 benchmark datasets involving both natural distribution shifts and cross-datasets generalization demonstrate that our method outperforms baselines, validating its effectiveness in mitigating prompt optimization bias.
- Abstract(参考訳): 視覚言語モデルに対するテスト時プロンプトチューニングは、ゼロショット設定下での素晴らしい一般化機能を示している。
しかし、ラベル付けされていないテストデータのみに基づいて学習可能なプロンプトをチューニングすることで、最適化バイアスが引き起こされ、最終的に下流タスクの最適化性能が低下する可能性がある。
そこで本研究では,モデルとデータの観点から,最適化の急激なバイアスの原因を解析する。
モデルの観点からは、エントロピー最小化の目的は、典型的にはモデル予測のエントロピーを減少させ、その正確性を見越すことに重点を置いている。
これにより、過度に不正確な出力が得られ、即時最適化の質が損なわれる。
データ側では、最適化バイアスに影響されたプロンプトは、視覚とテキストのモダリティのミスアライメントを導入し、プロンプト最適化バイアスをさらに増大させる。
そこで本研究では,Douubly Debiased Test-Time Prompt Tuning法を提案する。
具体的には、まず、テスト画像特徴をクエリとして使用した動的知識ベースから高信頼知識を検索し、検索した知識を用いて予測を変調する動的検索拡張変調モジュールを提案する。
さらに,信頼性に基づく重み付きアンサンブルとクロスモーダル整合蒸留を組み込んだ信頼性対応プロンプト最適化モジュールを開発し,プロンプトチューニング中に正規化制約を課す。
自然分布シフトとクロスデータセットの一般化の両方を含む15のベンチマークデータセットにわたる大規模な実験により,本手法がベースラインを上回り,迅速な最適化バイアスを緩和する効果が検証された。
関連論文リスト
- O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models [17.56932003351322]
視覚言語モデル(VLM)のテスト時プロンプトチューニングは、微調整なしでラベルのないデータで学習できることから注目されている。
結果として得られたモデルはキャリブレーションの低さを示す傾向にあり、これらのモデルの信頼性と信頼性に疑問を呈する。
我々は、学習可能なプロンプトに対応するテキストの特徴に直交制約を導入する、O-TPTと呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-15T11:45:54Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Optimizer's Information Criterion: Dissecting and Correcting Bias in Data-Driven Optimization [16.57676001669012]
データ駆動最適化では、得られた決定のサンプル性能は通常、真の性能に対して楽観的なバイアスを生じさせる。
クロスバリデーションのような、このバイアスを修正するための一般的なテクニックは、追加の最適化問題を繰り返し解決する必要があるため、コストがかかる。
我々は一階偏差を直接近似する一般バイアス補正手法を開発し、追加の最適化問題を解く必要はない。
論文 参考訳(メタデータ) (2023-06-16T07:07:58Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。