論文の概要: Decoupling Template Bias in CLIP: Harnessing Empty Prompts for Enhanced Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2512.08606v2
- Date: Wed, 10 Dec 2025 03:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.224285
- Title: Decoupling Template Bias in CLIP: Harnessing Empty Prompts for Enhanced Few-Shot Learning
- Title(参考訳): CLIPにおけるテンプレートバイアスのデカップリング:Few-Shot学習強化のためのEmpty Promptsのハーネス化
- Authors: Zhenyu Zhang, Guangyao Chen, Yixiong Zou, Zhimeng Huang, Yuhua Li,
- Abstract要約: Contrastive Language- Image Pre-Training (CLIP) モデルは、視覚的およびテキスト的表現を整列することで、数ショット学習において優れている。
本研究は,テキストテンプレートと画像サンプルの類似性として定義されたテンプレートサンプル類似性(TSS)がバイアスをもたらすことを示す。
このバイアスにより、モデルは真のサンプルとカテゴリのアライメントではなく、テンプレートの近接に依存するようになる。
本稿では,空のプロンプト,テキスト入力を用いた「空さ」の概念をカテゴリ情報なしで伝達するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.14553408545859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Contrastive Language-Image Pre-Training (CLIP) model excels in few-shot learning by aligning visual and textual representations. Our study shows that template-sample similarity (TSS), defined as the resemblance between a text template and an image sample, introduces bias. This bias leads the model to rely on template proximity rather than true sample-to-category alignment, reducing both accuracy and robustness in classification. We present a framework that uses empty prompts, textual inputs that convey the idea of "emptiness" without category information. These prompts capture unbiased template features and offset TSS bias. The framework employs two stages. During pre-training, empty prompts reveal and reduce template-induced bias within the CLIP encoder. During few-shot fine-tuning, a bias calibration loss enforces correct alignment between images and their categories, ensuring the model focuses on relevant visual cues. Experiments across multiple benchmarks demonstrate that our template correction method significantly reduces performance fluctuations caused by TSS, yielding higher classification accuracy and stronger robustness. The repository of this project is available at https://github.com/zhenyuZ-HUST/Decoupling-Template-Bias-in-CLIP.
- Abstract(参考訳): Contrastive Language- Image Pre-Training (CLIP) モデルは、視覚的およびテキスト的表現を整列することで、数ショット学習において優れている。
本研究は,テキストテンプレートと画像サンプルの類似性として定義されたテンプレートサンプル類似性(TSS)がバイアスをもたらすことを示す。
このバイアスにより、モデルは真のサンプルとカテゴリのアライメントよりもテンプレートの近接に依存するようになり、分類の正確性と堅牢性の両方が低下する。
本稿では,空のプロンプト,テキスト入力を用いた「空さ」の概念をカテゴリ情報なしで伝達するフレームワークを提案する。
これらのプロンプトは、バイアスのないテンプレート特徴をキャプチャし、TSSバイアスをオフセットする。
フレームワークには2つのステージがある。
事前トレーニング中、空のプロンプトはCLIPエンコーダ内のテンプレート誘発バイアスを明らかにし、低減する。
数ショットの微調整の間、バイアス校正の損失は画像とそのカテゴリ間の正確なアライメントを強制し、モデルが関連する視覚的手がかりに焦点を当てることを保証する。
複数のベンチマーク実験により, テンプレート補正法はTSSによる性能変動を著しく低減し, 高い分類精度と強靭性が得られることが示された。
プロジェクトのリポジトリはhttps://github.com/zhenyuZ-HUST/Decoupling-Template-Bias-in-CLIPで公開されている。
関連論文リスト
- Class-Aware Prototype Learning with Negative Contrast for Test-Time Adaptation of Vision-Language Models [48.61795272482598]
VLM(Vision-Language Models)は、大規模な画像テキスト事前学習を通じて、印象的なゼロショットの一般化を実証する。
しかし、デプロイメントディストリビューションがトレーニングディストリビューションから分岐すると、パフォーマンスが低下する可能性がある。
テスト時間適応(TTA)メソッドは、ラベルのないターゲットデータを使用してモデルを更新する。
軽量TTAフレームワークである textbfNegative textbfContrast(textbfCPL-NC) を用いた textbfClass-Aware textbfPrototype textbfL を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:38:35Z) - Post-pre-training for Modality Alignment in Vision-Language Foundation Models [12.110530026601968]
本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。
ゼロショットのパフォーマンス劣化を伴わずに、小さな画像テキストデータセットに対する1エポックトレーニングとフィーチャースペースの整合性を目指す。
論文 参考訳(メタデータ) (2025-04-17T07:46:19Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements [10.687101698324897]
大規模な言語モデルは、いくつかの例から新しいタスクを解くための驚くべき能力を示している。
プロンプトテンプレート、あるいはインプット例をフォーマットしてプロンプトを取得する方法は、コンテキスト内学習の重要な側面であるが、見過ごされがちである。
テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。
論文 参考訳(メタデータ) (2024-01-12T18:58:26Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。