論文の概要: Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning
- arxiv url: http://arxiv.org/abs/2505.11758v1
- Date: Fri, 16 May 2025 23:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.830019
- Title: Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning
- Title(参考訳): 予測プロンプトと負学習を用いた一般化可能なビジョンランゲージFew-Shot適応
- Authors: Sriram Mandalika,
- Abstract要約: ヴィジュアル言語モデル(VLM)の核となる課題は、ほとんどない
PromptFuseNLは、予測的プロンプトチューニングと2分岐正負の学習を組み合わせることで、数ショットの一般化を向上する統合フレームワークである。
- 参考スコア(独自算出の注目度): 1.3680468021400563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot adaptation remains a core challenge for vision-language models (VLMs), especially under limited supervision and noisy support samples. We propose PromptFuseNL, a unified framework that enhances few-shot generalization by combining predictive prompt tuning with dual-branch positive and negative learning. The method refines class prototypes through task-conditioned residuals, multi-stage cross-modal coordination, and semantic hard negative mining. To address label noise, we introduce an unsupervised instance reweighting strategy that downweights unreliable support examples without requiring additional labels or structural changes. PromptFuseNL fuses visual and textual cues through lightweight modules for efficient and discriminative prediction. Evaluated across 15 benchmarks, it consistently surpasses existing prompt- and adapter-based methods in all shot settings while remaining highly efficient, achieving up to 300x faster training and 1000x lower FLOPs compared to full prompt tuning, achieving a new state-of-the-art for robust and scalable few-shot vision-language adaptation.
- Abstract(参考訳): 視覚言語モデル(VLM)のコア課題は、特に限られた監督とノイズの多いサポートサンプルの下では、ほとんどない。
PromptFuseNLは、予測的プロンプトチューニングと2分岐正負の学習を組み合わせることで、数ショットの一般化を向上する統合フレームワークである。
この方法はタスク条件付き残差、多段階の相互調整、セマンティック・ハード・ネガティブ・マイニングを通じてクラスプロトタイプを洗練する。
ラベルノイズに対処するために、ラベルの追加や構造変更を必要とせずに、ダウンウェイトが信頼できないサポート例を提供する、教師なしのインスタンス再重み付け戦略を導入する。
PromptFuseNLは、視覚的およびテキスト的キューを軽量モジュールを通じて融合し、効率的かつ識別的な予測を行う。
15のベンチマークで評価され、すべてのショット設定において既存のプロンプトとアダプタベースのメソッドを一貫して上回りながら、最大300倍高速なトレーニングと1000倍低いFLOPを実現し、フルプロンプトチューニングと比較して1000倍低いFLOPを実現し、堅牢でスケーラブルな少数ショットの視覚言語適応のための新しい最先端技術を実現している。
関連論文リスト
- Context-Aware Multimodal Pretraining [72.04020920042574]
視覚言語モデルをトレーニングすることで,数ショット適応を著しく向上させることができることを示す。
テストタイムのサンプル効率は最大で4倍改善され、平均的な数ショット適応率は5%以上向上した。
論文 参考訳(メタデータ) (2024-11-22T17:55:39Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Consistency-guided Prompt Learning for Vision-Language Models [23.4909421082857]
視覚言語モデルのための新しい微調整手法であるConsistency-Guided Prompt Learning (CoPrompt)を提案する。
提案手法は,下流タスクを数ショットで微調整した場合に,大規模な基礎モデルの一般化を改善する。
論文 参考訳(メタデータ) (2023-06-01T23:20:47Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。