論文の概要: ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP
- arxiv url: http://arxiv.org/abs/2506.19608v1
- Date: Tue, 24 Jun 2025 13:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.643135
- Title: ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP
- Title(参考訳): ChordPrompt:CLIPにおけるマルチドメインインクリメンタルラーニングのためのクロスモーダルプロンプトシナジーのオーケストレーション
- Authors: Zhiyuan Wang, Bokui Chen,
- Abstract要約: 継続学習は、事前訓練された視覚言語モデルに、新規または以前は表現されていないデータ分布に効果的に適応させる権限を与える。
ChordPromptは、視覚情報とテキスト情報の相互作用を活用するためのクロスモーダルプロンプトを導入している。
ChordPromptはゼロショットの一般化とダウンストリームのタスクパフォーマンスにおいて最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 12.031278034659872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning (CL) empowers pre-trained vision-language models to adapt effectively to novel or previously underrepresented data distributions without comprehensive retraining, enhancing their adaptability and efficiency. While vision-language models like CLIP show great promise, they struggle to maintain performance across domains in incremental learning scenarios. Existing prompt learning methods face two main limitations: 1) they primarily focus on class-incremental learning scenarios, lacking specific strategies for multi-domain task incremental learning; 2) most current approaches employ single-modal prompts, neglecting the potential benefits of cross-modal information exchange. To address these challenges, we propose the \ChordPrompt framework, which facilitates a harmonious interplay between visual and textual prompts. \ChordPrompt introduces cross-modal prompts to leverage interactions between visual and textual information. Our approach also employs domain-adaptive text prompts to select appropriate prompts for continual adaptation across multiple domains. Comprehensive experiments on multi-domain incremental learning benchmarks demonstrate that \ChordPrompt outperforms state-of-the-art methods in zero-shot generalization and downstream task performance.
- Abstract(参考訳): 継続学習(CL)は、事前学習された視覚言語モデルに対して、包括的再訓練をせずに、新しい、あるいは以前には表現されていないデータ分布に効果的に適応し、適応性と効率を高める権限を与える。
CLIPのようなビジョン言語モデルは素晴らしい可能性を示していますが、漸進的な学習シナリオにおいて、ドメイン間のパフォーマンスを維持するのに苦労しています。
既存の素早い学習法には2つの制限がある。
1)多分野タスクインクリメンタルラーニングのための具体的な戦略が欠如しているクラス増分学習シナリオに主眼を置いている。
2) 現状のアプローチの多くは単一モーダルなプロンプトを採用しており, クロスモーダルな情報交換の潜在的な利点を無視している。
これらの課題に対処するため,視覚的プロンプトとテキスト的プロンプトの調和を図った,‘ChordPromptフレームワーク’を提案する。
\ChordPromptは、視覚情報とテキスト情報の相互作用を活用するためのクロスモーダルプロンプトを導入している。
また、ドメイン適応型テキストプロンプトを用いて、複数のドメインにまたがる継続的な適応のための適切なプロンプトを選択する。
マルチドメインインクリメンタルラーニングベンチマークに関する総合的な実験により、‘ChordPrompt’はゼロショットの一般化とダウンストリームのタスクパフォーマンスにおいて最先端の手法より優れていることが示された。
関連論文リスト
- Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。