論文の概要: Integrated Structural Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.05677v1
- Date: Tue, 08 Jul 2025 04:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.56965
- Title: Integrated Structural Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための統合的構造的プロンプト学習
- Authors: Jiahui Wang, Qin Xu, Bo Jiang, Bin Luo,
- Abstract要約: 本稿では、視覚言語モデル(VLM)のための統合構造プロンプト(ISP)を提案する。
ISPは、学習可能なプロンプトと凍結トークンの間の構造関係をモデル化するために、自己構造的および相互構造的プロンプトモジュールを導入している。
ISPは最先端の手法に対して競争力を発揮する。
- 参考スコア(独自算出の注目度): 15.002501540565781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt learning methods have significantly extended the transferability of pre-trained Vision-Language Models (VLMs) like CLIP for various downstream tasks. These methods adopt handcraft templates or learnable vectors to provide text or image instructions in fine-tuning VLMs. However, most existing works ignore the structural relationships between learnable prompts and tokens within and between modalities. Moreover, balancing the performance of base and new classes remains a significant challenge. In this paper, we propose an Integrated Structural Prompt (ISP) for VLMs to enhance the interaction of information representations between the text and image branches. ISP introduces self-structural and cross-structural prompt modules to model the structural relationships between learnable prompts and frozen tokens within and across modalities. This enables efficient information transfer while preserving feature stability. Additionally, we propose a sample probing module that dynamically adjusts loss coefficients based on sample difficulty, preventing the mode from overfitting to simple samples and improving generalization ability to new classes. Extensive experiments on three widely used settings: base-to-new generalization, cross-dataset evaluation, and domain generalization demonstrate that the proposed ISP achieves competitive performance against state-of-the-art methods.
- Abstract(参考訳): プロンプト学習手法は、様々な下流タスクのためのCLIPのような事前訓練されたビジョンランゲージモデル(VLM)の転送可能性を大幅に拡張した。
これらの手法は手書きテンプレートや学習可能なベクトルを用い、微調整のVLMでテキストや画像の指示を提供する。
しかしながら、既存のほとんどの研究は、学習可能なプロンプトとモダリティ内およびモダリティ間のトークンの間の構造的関係を無視している。
さらに、ベースクラスと新しいクラスのパフォーマンスのバランスは依然として大きな課題です。
本稿では,VLMのための統合構造プロンプト(ISP)を提案し,テキストと画像のブランチ間の情報表現の相互作用を強化する。
ISPは、学習可能なプロンプトと、モジュール間の凍結トークンの間の構造関係をモデル化するために、自己構造的および相互構造的プロンプトモジュールを導入している。
これにより、特徴安定性を維持しながら効率的な情報転送が可能になる。
また,サンプル難易度に基づいて損失係数を動的に調整するサンプル探索モジュールを提案する。
ベース・ツー・ニューな一般化、クロス・データセットの評価、ドメイン・ジェネリゼーションの3つの広範囲にわたる実験により、提案したISPが最先端の手法と競合する性能を発揮することを示した。
関連論文リスト
- ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP [12.031278034659872]
継続学習は、事前訓練された視覚言語モデルに、新規または以前は表現されていないデータ分布に効果的に適応させる権限を与える。
ChordPromptは、視覚情報とテキスト情報の相互作用を活用するためのクロスモーダルプロンプトを導入している。
ChordPromptはゼロショットの一般化とダウンストリームのタスクパフォーマンスにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-06-24T13:22:06Z) - An Empirical Study of Federated Prompt Learning for Vision Language Model [50.73746120012352]
本稿では,言語素性学習と視覚素性学習の行動的差異を系統的に検討する。
クライアントスケールやアグリゲーション戦略,プロンプト長といった,さまざまなflの影響評価実験を行う。
ラベルスキューとドメインシフトが共存する複雑なシナリオにおいて、迅速な学習を促進するための戦略を検討する。
論文 参考訳(メタデータ) (2025-05-29T03:09:15Z) - Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7383184560431]
連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文 参考訳(メタデータ) (2025-05-27T03:51:37Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - HPT++: Hierarchically Prompting Vision-Language Models with Multi-Granularity Knowledge Generation and Improved Structure Modeling [39.14392943549792]
本稿では,階層型プロンプトチューニング(HPT)と呼ばれる新しい手法を提案し,構造化知識と従来の言語知識の同時モデリングを可能にする。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
全体意味論をモデル化する高レベルかつグローバルレベルのプロンプトを取り入れることで、提案された階層構造は、クロスレベルな相互リンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文 参考訳(メタデータ) (2024-08-27T06:50:28Z) - Learning Hierarchical Prompt with Structured Linguistic Knowledge for
Vision-Language Models [43.56153167864033]
大規模言語モデル(LLM)における構造化知識を活用する新しい手法を提案する。
低レベルの即時学習のためのエンティティと属性間のペアワイズ関連をキャプチャする、関係誘導型アテンションモジュールを導入する。
さらに、高レベルのプロンプトとグローバルレベルのプロンプトを組み込むことで、提案された階層構造は、クロスレベルのインターリンクを偽造し、より複雑で長期的な関係を扱うようにモデルに権限を与える。
論文 参考訳(メタデータ) (2023-12-11T12:14:06Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。