論文の概要: Local-Global Prompt Learning via Sparse Optimal Transport
- arxiv url: http://arxiv.org/abs/2603.08347v1
- Date: Mon, 09 Mar 2026 13:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.005429
- Title: Local-Global Prompt Learning via Sparse Optimal Transport
- Title(参考訳): スパース最適輸送によるローカル・グローバル・プロンプト学習
- Authors: Deniz Kizaroğlu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel,
- Abstract要約: CLIPのような視覚言語モデル(VLM)のわずかな適応は、一般的に、グローバルな画像埋め込みにマッチしたテキストプロンプトの学習に依存している。
近年の研究では、局所的な画像テキストアライメントを取り入れて、微細な視覚的手がかりを捉えることで、このパラダイムを拡張している。
本稿では,共有スパースパッチと最適トランスポートアロケーションのバランスをとるSOT-GLPを提案する。
- 参考スコア(独自算出の注目度): 3.7098626170498643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot adaptation of vision-language models (VLMs) like CLIP typically relies on learning textual prompts matched to global image embeddings. Recent works extend this paradigm by incorporating local image-text alignment to capture fine-grained visual cues, yet these approaches often select local regions independently for each prompt, leading to redundant local feature usage and prompt overlap. We propose SOT-GLP, which introduces a shared sparse patch support and balanced optimal transport allocation to explicitly partition salient visual regions among class-specific local prompts while preserving global alignment. Our method learns shared global prompts and class-specific local prompts. The global branch maintains standard image-text matching for robust category-level alignment. The local branch constructs a class-conditioned sparse patch set using V-V attention and aligns it to multiple class-specific prompts via balanced entropic optimal transport, yielding a soft partition of patches that prevents prompt overlap and collapse. We evaluate our method on two complementary objectives: (i) few-shot classification accuracy on 11 standard benchmarks and (ii) out-of-distribution (OOD) detection. On the standard 11-dataset benchmark with 16-shot ViT-B/16, SOT-GLP achieves 85.1% average accuracy, outperforming prior prompt-learning methods. We identify a distinct accuracy-robustness trade-off in prompt learning: while learnable projections optimize in-distribution fit, they alter the foundational feature space. We demonstrate that a projection-free local alignment preserves the native geometry of the CLIP manifold, yielding state-of-the-art OOD detection performance (94.2% AUC) that surpasses fully adapted models. Implementation available at: https://github.com/Deniz2304988/SOT-GLP
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)のわずかな適応は、一般的に、グローバルな画像埋め込みにマッチしたテキストプロンプトの学習に依存している。
最近の研究は、局所的な画像テキストアライメントを組み込んで、きめ細かい視覚的手がかりを捉えることで、このパラダイムを拡張している。
グローバルなアライメントを維持しつつ,クラス固有の局所的なプロンプト間で有意な視覚領域を明示的に分割するために,共有スパースパッチサポートと最適なトランスポートアロケーションを導入したSOT-GLPを提案する。
本手法は,共有グローバルプロンプトとクラス固有のローカルプロンプトを学習する。
グローバルブランチは、堅牢なカテゴリレベルのアライメントのための標準イメージテキストマッチングを維持している。
ローカルブランチはV-V注意を用いてクラス条件スパースパッチセットを構築し、バランスの取れたエントロピー最適輸送を介して複数のクラス固有のプロンプトにアライメントする。
我々は2つの相補的な目的について評価する。
(i)11の標準ベンチマークと数発の分類精度
(ii)アウト・オブ・ディストリビューション(OOD)検出。
16ショットのViT-B/16の標準11データセットベンチマークでは、SOT-GLPは85.1%の平均精度を達成し、事前のプロンプト学習法よりも優れている。
学習可能なプロジェクションは分布内適合を最適化するが、基礎的特徴空間を変化させる。
プロジェクションフリーな局所アライメントはCLIP多様体の固有形状を保ち、完全に適応されたモデルを超える最先端のOOD検出性能(94.2% AUC)が得られることを示した。
https://github.com/Deniz2304988/SOT-GLP
関連論文リスト
- Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。
提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。
DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - GalLoP: Learning Global and Local Prompts for Vision-Language Models [18.61218795834041]
我々は,グローバル・ローカル・プロンプト(GalLoP)という,グローバル・ローカル・プロンプトとローカル・ビジュアル・特徴の両面を活用した多様なプロンプトを学習する新しいプロンプト学習手法を紹介した。
GalLoPは、ドメインの一般化とOOD検出の両方において強い堅牢性を示し、専用のOOD検出方法よりも優れている。
論文 参考訳(メタデータ) (2024-07-01T15:50:15Z) - GLC++: Source-Free Universal Domain Adaptation through Global-Local Clustering and Contrastive Affinity Learning [84.54244771470012]
Source-Free Universal Domain Adaptation (SF-UniDA) は、共通カテゴリに属する「既知の」データを正確に分類することを目的としている。
GLC技術は適応的な1対vsの全グローバルクラスタリングアルゴリズムを含む。
GLC++は、オープンセットシナリオにおいて、GLCの新しいカテゴリクラスタリング精度を4.1%向上させる。
論文 参考訳(メタデータ) (2024-03-21T13:57:45Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - VICRegL: Self-Supervised Learning of Local Visual Features [34.92750644059916]
本稿では,局所的な特徴とグローバルな特徴の学習における基本的なトレードオフについて考察する。
グローバルな特徴とローカルな特徴を同時に学習するVICRegLと呼ばれる新しい手法が提案されている。
線形分類とセグメンテーション伝達タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2022-10-04T12:54:25Z) - An Entropy-guided Reinforced Partial Convolutional Network for Zero-Shot
Learning [77.72330187258498]
エントロピー誘導強化部分畳み込みネットワーク(ERPCNet)を提案する。
ERPCNetは、人間のアノテーションのない意味的関連性と視覚的相関に基づいて、局所性を抽出し、集約する。
グローバルな協力的局所性を動的に発見するだけでなく、ポリシー勾配最適化のためにより高速に収束する。
論文 参考訳(メタデータ) (2021-11-03T11:13:13Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。