論文の概要: Gram-Anchored Prompt Learning for Vision-Language Models via Second-Order Statistics
- arxiv url: http://arxiv.org/abs/2604.03980v1
- Date: Sun, 05 Apr 2026 06:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.85937
- Title: Gram-Anchored Prompt Learning for Vision-Language Models via Second-Order Statistics
- Title(参考訳): 第二次統計による視覚言語モデルのグラムアンコール型プロンプト学習
- Authors: Minglei Chen, Weilong Wang, Jiang Duan, Ye Deng,
- Abstract要約: 我々は、一階情報のみに頼ることは、堅牢な適応には不十分であると主張している。
第二次統計量を用いた視覚言語モデルのためのtextbfGram-Anchored Prompt Learning (GAPL) を提案する。
- 参考スコア(独自算出の注目度): 6.327904555091201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient prompt learning has become the de facto standard for adapting Vision-Language Models (VLMs) to downstream tasks. Existing approaches predominantly focus on aligning text prompts with first-order visual features (i.e., spatial feature maps). While effective for fine-grained semantic discrimination, we argue that relying solely on first-order information is insufficient for robust adaptation, as these spatially entangled features are highly susceptible to domain shifts and local noise. In this work, we propose \textbf{Gram-Anchored Prompt Learning (GAPL)} for Vision-Language Models via Second-Order Statistics, a framework that synergizes local semantic alignment with global structural consistency. Methodologically, we introduce an additional second-order statistical stream via \textbf{Gram matrices} that augments the standard first-order spatial interaction. By anchoring prompts to these second-order priors, our approach enables language representations to dynamically adapt to statistical distribution shifts across diverse domains. Extensive experiments indicate the effectiveness of the second-order features, and show compelling performances of GAPL on various benchmarks.
- Abstract(参考訳): パラメータ効率のよいプロンプト学習は、下流タスクに視覚言語モデル(VLM)を適用するためのデファクトスタンダードとなっている。
既存のアプローチは、主にテキストプロンプトを一階の視覚的特徴(空間的特徴写像)に合わせることに重点を置いている。
このような空間的絡み合った特徴は、ドメインシフトや局所雑音の影響を受けやすいため、一階情報のみに依存することは、ロバスト適応には不十分である、と我々は主張する。
本研究では,グローバルな構造的整合性と局所的な意味的整合性を相乗化するためのフレームワークであるSecond-Order Statistics を用いて,視覚言語モデルのための \textbf{Gram-Anchored Prompt Learning (GAPL) を提案する。
メソジカルに,標準的な一階空間相互作用を増大させるような,二階統計ストリームを \textbf{Gram matrices} を通じて導入する。
これらの2階述語にプロンプトを固定することにより、言語表現は様々な領域にわたる統計的分布シフトに動的に適応することができる。
拡張実験は2次特徴の有効性を示し、様々なベンチマークでGAPLの魅力的な性能を示す。
関連論文リスト
- dinov3.seg: Open-Vocabulary Semantic Segmentation with DINOv3 [36.6036728217708]
Open-Vocabulary Semantics (OVSS)は、テキスト定義カテゴリのオープンセットからピクセルレベルのラベルを割り当て、推論時に見えないクラスに信頼性の高い一般化を要求する。
我々は dinov3.seg を導入し、 dinov3.txt を OVSS 専用のフレームワークに拡張した。
まず、このバックボーンに合わせたタスク固有のアーキテクチャを設計し、従来のオープン語彙セグメンテーション作業から確立した設計原則を体系的に適用する。
第2に、VTベースのエンコーダのグローバルトークンとローカルパッチレベルのビジュアル特徴の両方に整合したテキスト埋め込みを共同で活用する。
論文 参考訳(メタデータ) (2026-03-19T23:57:28Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-02T12:14:29Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Interpretable Zero-Shot Learning with Locally-Aligned Vision-Language Model [56.573203512455706]
大規模視覚言語モデル(VLM)は、大規模視覚テキストペアデータセットを活用することでゼロショット学習(ZSL)において顕著な成功を収めた。
この問題に対処する1つのアプローチは、言語を統合することで解釈可能なモデルを開発することである。
本稿では,ZSLを解釈可能な言語モデルであるLaZSLを提案する。
論文 参考訳(メタデータ) (2025-06-30T13:14:46Z) - SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation [9.311853182451289]
セマンティックセグメンテーションのための言語誘導半教師付きドメイン適応(SSDA)設定を提案する。
我々は、視覚言語モデル(VLM)に固有の意味一般化機能を活用して、相乗的枠組みを確立する。
提案手法は, 現代の SoTA (State-of-the-art) 手法に比較して, 大幅な性能向上を示す。
論文 参考訳(メタデータ) (2025-04-08T19:14:34Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [63.54377402784965]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構から, シミュレータフリー, 省力両面において, 新たな観察・指導ペアを得ることができた。
離散環境(R2R,REVERIE,R4Rデータセット)と連続環境(R2R-CEデータセット)の両方における実験は,本手法の優れた性能と優れた一般化能力を示している。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文 参考訳(メタデータ) (2022-09-06T10:06:10Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。