論文の概要: Hierarchical Cross-modal Prompt Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.14976v1
- Date: Sun, 20 Jul 2025 14:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.146658
- Title: Hierarchical Cross-modal Prompt Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための階層型クロスモーダル・プロンプト学習
- Authors: Hao Zheng, Shunzhi Yang, Zhuoxin He, Jinfeng Yang, Zhenhua Huang,
- Abstract要約: HiCroPLは階層型クロスモーダルなPrompt Learningフレームワークである。
テキストと視覚の相補的な強みを活用して知識の流れを導出する。
11のベンチマークで最先端の結果が得られ、大幅な改善がなされている。
- 参考スコア(独自算出の注目度): 9.128564580725627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Vision-Language Models (VLMs) such as CLIP have shown excellent generalization abilities. However, adapting these large-scale models to downstream tasks while preserving their generalization capabilities remains challenging. Although prompt learning methods have shown promise, they suffer from two fundamental bottlenecks that limit generalization: (a) modality isolation, and (b) hierarchical semantic decay. To address these limitations, we propose HiCroPL, a Hierarchical Cross-modal Prompt Learning framework that establishes bidirectional knowledge flow between text and vision modalities, enabling them to refine their semantics mutually. HiCroPL routes knowledge flows by leveraging the complementary strengths of text and vision. In early layers, text prompts inject relatively clear semantics into visual prompts through a hierarchical knowledge mapper, enhancing the representation of low-level visual semantics. In later layers, visual prompts encoding specific task-relevant objects flow back to refine text prompts, enabling deeper alignment. Crucially, our hierarchical knowledge mapper allows representations at multi-scales to be fused, ensuring that deeper representations retain transferable shallow semantics thereby enhancing generalization. We further introduce a lightweight layer-specific knowledge proxy to enable efficient cross-modal interactions. Extensive evaluations across four tasks demonstrate HiCroPL's superior performance, achieving state-of-the-art results on 11 benchmarks with significant improvements. Code is available at: https://github.com/zzeoZheng/HiCroPL.
- Abstract(参考訳): CLIPのような事前訓練されたビジョンランゲージモデル(VLM)は、優れた一般化能力を示している。
しかし、これらの大規模モデルを下流タスクに適応させながら、一般化能力を維持することは依然として困難である。
素早い学習手法は将来性を示しているが、一般化を制限する2つの基本的なボトルネックに悩まされている。
a)モダリティ分離,及び
(b)階層的意味崩壊
このような制約に対処するために,テキストと視覚モダリティ間の双方向知識フローを確立する階層型クロスモーダル・プラットラーニングフレームワークであるHiCroPLを提案する。
HiCroPLは、テキストとビジョンの相補的な強みを活用することで、知識フローをルーティングする。
初期の層では、テキストプロンプトは階層的な知識マッパーを通じて視覚的プロンプトに比較的明確な意味論を注入し、低レベルの視覚的意味論の表現を強化する。
後続のレイヤでは、特定のタスク関連オブジェクトをコードする視覚的プロンプトが、テキストプロンプトを洗練するためにフローバックして、より深いアライメントを可能にする。
重要なことに、我々の階層的な知識マッパーは、多スケールでの表現を融合させ、より深い表現が伝達可能な浅瀬意味論を維持し、一般化を促進する。
さらに、効率的な相互モーダルインタラクションを実現するために、軽量なレイヤ固有の知識プロキシを導入します。
4つのタスクにわたる大規模な評価は、HiCroPLの優れたパフォーマンスを示し、11のベンチマークで最先端の結果が得られ、大幅な改善がなされた。
コードは、https://github.com/zzeoZheng/HiCroPL.comで入手できる。
関連論文リスト
- HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - InPK: Infusing Prior Knowledge into Prompt for Vision-Language Models [24.170351966913557]
学習可能なトークンにクラス固有の事前知識を注入するInPKモデルを提案する。
また、テキスト調整に対応するための学習可能なテキスト・ツー・ビジョン・プロジェクション・レイヤも導入する。
実験では、InPKは複数のゼロ/ファウショット画像分類タスクにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-02-27T05:33:18Z) - Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Text-driven Prompt Generation for Vision-Language Models in Federated
Learning [24.005620820818756]
FedTPG(Federated Text-Driven Prompt Generation)を提案する。
FedTPGは、複数のリモートクライアントにまたがる統一的なプロンプト生成ネットワークをスケーラブルに学習する。
9つの多様な画像分類データセットを総合的に評価した結果,既存のフェデレーション・プロンプト・ラーニング・手法よりも優れた手法であることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T19:57:24Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware
Attention [38.9792837990585]
階層対応のCLIP(Hierarchy-aware CLIP:HiCLIP)という,階層対応のCLIPの視覚と言語の両方を装備する。
HiCLIPは、画像とテキストの両方から階層構造を、教師なしの方法で徐々に発見する。
結果として、このような階層的な集約は、クロスモーダルアライメントを著しく改善する。
論文 参考訳(メタデータ) (2023-03-06T09:44:01Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。