論文の概要: DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.19373v1
- Date: Mon, 26 May 2025 00:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.077909
- Title: DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models
- Title(参考訳): DiSa:汎用ビジョンランゲージモデルのための指向性サリエンシ対応プロンプト学習
- Authors: Niloufar Alipour Talemi, Hossein Kashiani, Hossein R. Nowdeh, Fatemeh Afghah,
- Abstract要約: DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。
一般化を強化するために2つの補完正則化戦略を統合する。
さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 5.027492394254859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has emerged as a powerful paradigm for adapting vision-language models such as CLIP to downstream tasks. However, existing methods often overfit to seen data, leading to significant performance degradation when generalizing to novel classes or unseen domains. To address this limitation, we propose DiSa, a Directional Saliency-Aware Prompt Learning framework that integrates two complementary regularization strategies to enhance generalization. First, our Cross-Interactive Regularization (CIR) fosters cross-modal alignment by enabling cooperative learning between prompted and frozen encoders. Within CIR, a saliency-aware masking strategy guides the image encoder to prioritize semantically critical image regions, reducing reliance on less informative patches. Second, we introduce a directional regularization strategy that aligns visual embeddings with class-wise prototype features in a directional manner to prioritize consistency in feature orientation over strict proximity. This approach ensures robust generalization by leveraging stable prototype directions derived from class-mean statistics. Extensive evaluations on 11 diverse image classification benchmarks demonstrate that DiSa consistently outperforms state-of-the-art prompt learning methods across various settings, including base-to-novel generalization, cross-dataset transfer, domain generalization, and few-shot learning.
- Abstract(参考訳): プロンプト学習は、CLIPのようなビジョン言語モデルを下流タスクに適応するための強力なパラダイムとして登場した。
しかし、既存のメソッドはデータを見るのによく適しており、新しいクラスや目に見えないドメインに一般化すると、パフォーマンスが大幅に低下する。
この制限に対処するために,2つの相補的な正規化戦略を統合して一般化を強化するディサ(DiSa)を提案する。
第一に、我々のクロス・インターアクティブ・レギュラー化(CIR)は、誘導エンコーダと凍結エンコーダの協調学習を可能にすることで、クロスモーダルアライメントを促進する。
CIR内では、唾液を意識したマスキング戦略がイメージエンコーダを誘導し、意味的に重要な画像領域を優先順位付けし、少ない情報パッチへの依存を減らす。
第2に,視覚的埋め込みとクラスワイドなプロトタイプ機能とを指向的に整列させて,厳密な近接性よりも特徴方向の整合性を優先する方向正則化戦略を導入する。
このアプローチは、クラス平均統計から導かれる安定したプロトタイプ方向を活用することにより、堅牢な一般化を保証する。
11の多様な画像分類ベンチマークに対する広範囲な評価により、DiSaは、ベース・ツー・ノーベルの一般化、クロスデータセットの転送、ドメインの一般化、少数ショットの学習など、さまざまな設定における最先端の学習手法を一貫して上回っていることが示されている。
関連論文リスト
- Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - OSLoPrompt: Bridging Low-Supervision Challenges and Open-Set Domain Generalization in CLIP [15.780915391081734]
低ショットオープンセット領域一般化(LSOSDG)は、オープンセットドメイン一般化(ODG)と低ショット学習を統合する新しいパラダイムである。
提案するOSLOPROMPTは,CLIPのための先進的なプロンプトラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-03-20T12:51:19Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [2.733505168507872]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Style-Pro: Style-Guided Prompt Learning for Generalizable Vision-Language Models [5.492174268132387]
Style-Proは、CLIPのゼロショット一般化能力を緩和し、保存する新しいプロンプト学習フレームワークである。
Style-Proは、ベース・ツー・ニューの一般化、クロス・データセットの転送、ドメインの一般化など、さまざまな設定における最先端のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-25T00:20:53Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Cross Knowledge-based Generative Zero-Shot Learning Approach with
Taxonomy Regularization [5.280368849852332]
我々は、Cross Knowledge Learning(CKL)スキームとTaxonomy Regularization(TR)を採用したネットワークベースのZSLアプローチを開発する。
CKLは、ZSLにセマンティックとビジュアルの機能を埋め込むための、より関連性の高いセマンティック機能をトレーニングできる。
TRは、生成ネットワークから生成されるより一般化された視覚特徴を持つ見えない画像との交差を著しく改善する。
論文 参考訳(メタデータ) (2021-01-25T04:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。