論文の概要: MSGCoOp: Multiple Semantic-Guided Context Optimization for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2507.21786v1
- Date: Tue, 29 Jul 2025 13:15:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.353601
- Title: MSGCoOp: Multiple Semantic-Guided Context Optimization for Few-Shot Learning
- Title(参考訳): MSGCoOp:Few-Shot Learningのためのマルチセマンティックガイド付きコンテキスト最適化
- Authors: Zhaolong Wang, Tongfeng Sun, Mingzheng Du, Yachao Huang,
- Abstract要約: 本稿では,マルチセマンティック・ガイド型コンテキスト最適化(MSGCoOp)フレームワークを提案する。
我々のアプローチは、並列学習可能なコンテキストベクトルのアンサンブルを利用して、多様な意味的側面をキャプチャする。
11のベンチマークデータセットの実験により、MSGCoOpはベース・ツー・ノーベルの一般化の性能を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 0.8249694498830561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-trained models (VLMs) such as CLIP have demonstrated remarkable zero-shot generalization, and prompt learning has emerged as an efficient alternative to full fine-tuning. However, existing methods often struggle with generalization to novel classes, a phenomenon attributed to overfitting on seen classes and forgetting general knowledge. Furthermore, recent approaches that improve generalization often introduce complex architectures or heavy computational overhead. In this paper, we propose a Multiple Semantic-Guided Context Optimization (MSGCoOp) framework to enhance few-shot generalization while maintaining computational efficiency. Our approach leverages an ensemble of parallel learnable context vectors to capture diverse semantic aspects. To enrich these prompts, we introduce a semantic guidance mechanism that aligns them with comprehensive class descriptions automatically generated by a Large Language Model (LLM). Furthermore, a diversity regularization loss encourages the prompts to learn complementary and orthogonal features, preventing them from collapsing into redundant representations. Extensive experiments on 11 benchmark datasets show that MSGCoOp significantly improves performance on base-to-novel generalization, achieving an average harmonic mean improvement of 1.10\% over the strong KgCoOp baseline. Our method also demonstrates enhanced robustness in cross-domain generalization tasks. Our code is avaliable at: \href{https://github.com/Rain-Bus/MSGCoOp}{https://github.com/Rain-Bus/MSGCoOp}.
- Abstract(参考訳): CLIPのような視覚言語事前学習モデル(VLM)は目覚ましいゼロショットの一般化を示しており、高速学習は完全な微調整に代わる効率的な代替手段として現れている。
しかし、既存の手法は、目に見えるクラスに過度に適合し、一般的な知識を忘れることに起因する現象である、新しいクラスへの一般化に苦慮することが多い。
さらに、一般化を改善する最近のアプローチは、複雑なアーキテクチャや重い計算オーバーヘッドをもたらすことが多い。
本稿では,マルチセマンティックガイド型コンテキスト最適化(MSGCoOp)フレームワークを提案する。
我々のアプローチは、並列学習可能なコンテキストベクトルのアンサンブルを利用して、多様な意味的側面をキャプチャする。
これらのプロンプトを豊かにするために,Large Language Model (LLM) によって自動生成される包括的クラス記述と整合させるセマンティックガイダンス機構を導入する。
さらに、多様性の正規化損失は、補完的特徴と直交的特徴の学習を促す。
11のベンチマークデータセットに対する大規模な実験により、MSGCoOpはベース・ツー・ノーベル一般化のパフォーマンスを著しく改善し、強いKgCoOpベースラインに対して平均1.10\%の高調波平均改善を達成することが示された。
また,クロスドメイン一般化タスクにおけるロバスト性の向上も示す。
当社のコードは、以下の通り。 \href{https://github.com/Rain-Bus/MSGCoOp}{https://github.com/Rain-Bus/MSGCoOp}。
関連論文リスト
- Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - A Similarity Paradigm Through Textual Regularization Without Forgetting [17.251684463032433]
テキスト正規化による類似パラダイム(SPTR)と呼ばれる新しい手法を提案する。
SPTRは、手作りのプロンプトに基づく、分離不能なフレームワークである。
11のデータセットにまたがる4つの代表的なタスクは、SPTRが既存のプロンプト学習方法より優れていることを示している。
論文 参考訳(メタデータ) (2025-02-20T09:06:44Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Conditional Prompt Learning for Vision-Language Models [107.06776396086471]
近ごろ提案されたContext Optimization (CoOp) は、文脈単語をプロンプトで学習可能なベクトルの集合に変換する。
CoOpは、CoOpよりもはるかに優れたクラスを非表示に一般化し、単一のデータセットを超える有望な転送可能性を示している。
我々の実験によると、CoCoOpはCoOpよりもはるかに優れたクラスに一般化しており、単一のデータセットを超える有望な転送可能性を示している。
論文 参考訳(メタデータ) (2022-03-10T18:59:41Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。