論文の概要: Decoupling Augmentation Bias in Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.03367v1
- Date: Wed, 05 Nov 2025 11:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.411218
- Title: Decoupling Augmentation Bias in Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのプロンプト学習における拡張バイアスのデカップリング
- Authors: Gahyeon Kim, Sohee Kim, Seokju Lee,
- Abstract要約: CoCoOpのような手法は、手作りのプロンプトを、プロンプトラーニングとして知られる学習可能なベクトルに置き換えることで、パフォーマンスが向上することを示した。
従来のゼロショット学習技術は、様々なデータ拡張戦略の恩恵を受けているが、迅速な学習は主にテキストベースの修正に焦点を当てている。
画像レベルの拡張、特に属性固有のバリエーションを導入し、迅速な学習をサポートし、強化する方法について検討する。
- 参考スコア(独自算出の注目度): 8.634414503821697
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large-scale vision and language models have led to significant progress in zero-shot learning tasks. Methods such as CoOp and CoCoOp have shown that replacing handcrafted prompts with learnable vectors, known as prompt learning, can result in improved performance. However, these models often struggle to generalize to entirely unseen categories. While traditional zero-shot learning techniques benefit from various data augmentation strategies, prompt learning has primarily focused on text-based modifications, leaving the potential of image-based augmentation largely unexplored. In this work, we explore how image-level augmentations, particularly those that introduce attribute-specific variations, can support and enhance prompt learning. Our analysis examines the interaction between these augmentations and soft prompt frameworks, revealing their potential to improve generalization. We also identify a limitation in existing methods, such as CoCoOp, which do not provide explicit guidance for learning prompts that focus on semantically meaningful visual features. To address this, we propose Adding Attributes to Prompt Learning, AAPL, a novel method that introduces adversarial token embeddings to decouple superficial visual variations introduced by augmentation from class-relevant semantic representations. This decoupling enables the learned prompts to concentrate on visually discriminative features that align with the target categories. We conduct comprehensive experiments on eleven benchmark datasets, and AAPL consistently outperforms existing methods across few-shot, zero-shot, cross-dataset, and domain generalization settings. Our source code is publicly available at: https://github.com/Gahyeonkim09/AAPL
- Abstract(参考訳): 近年の大規模ビジョンと言語モデルの発展により、ゼロショット学習タスクが大幅に進歩している。
CoOpやCoCoOpのような手法は、手作りのプロンプトを、即興学習として知られる学習可能なベクトルに置き換えることで、パフォーマンスが向上することを示した。
しかし、これらのモデルは、しばしば全く見えないカテゴリーに一般化するのに苦労する。
従来のゼロショット学習技術は、様々なデータ拡張戦略の恩恵を受けているが、迅速な学習は主にテキストベースの修正に焦点を当てており、画像ベースの拡張の可能性はほとんど探索されていない。
本研究では,画像レベルの強化,特に属性固有のバリエーションを導入し,迅速な学習を支援する方法について検討する。
本分析では,これらの拡張とソフトプロンプトフレームワークの相互作用について検討し,一般化を向上する可能性を明らかにした。
また,CoCoOpのような既存の手法では,意味的に意味のある視覚的特徴に焦点を絞った学習指導を明示的に行なわない。
これを解決するために,クラス関連セマンティック表現からの付加による表面的変化を分離するために,対角的トークン埋め込みを導入する新しい手法であるAAPL(Adding Attributes to Prompt Learning, AAPL)を提案する。
この分離により、学習したプロンプトは、対象のカテゴリに合わせて視覚的に識別可能な特徴に集中することができる。
我々は11のベンチマークデータセットで包括的な実験を行い、AAPLはいくつかのショット、ゼロショット、クロスデータセット、ドメインの一般化設定で既存のメソッドよりも一貫して優れています。
私たちのソースコードは、https://github.com/Gahyeonkim09/AAPLで公開されています。
関連論文リスト
- InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。
また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。
実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-27T05:33:18Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - AAPL: Adding Attributes to Prompt Learning for Vision-Language Models [6.32186874112557]
本稿では,学習可能なプロンプトのバイアスを誘発する際,高次クラス情報から低次視覚強調特徴を分離するための逆トークン埋め込みを提案する。
我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。
論文 参考訳(メタデータ) (2024-04-25T17:51:10Z) - Boosting Audio-visual Zero-shot Learning with Large Language Models [32.533844163120875]
我々はKDA(KnowleDge-Augmented Audio-visual Learning)というフレームワークを導入する。
提案したKDAは、一般的な3つのゼロショット学習データセットにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-21T01:18:23Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。