論文の概要: SEP: Self-Enhanced Prompt Tuning for Visual-Language Model
- arxiv url: http://arxiv.org/abs/2405.15549v3
- Date: Fri, 22 Nov 2024 06:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:22.319020
- Title: SEP: Self-Enhanced Prompt Tuning for Visual-Language Model
- Title(参考訳): SEP: ビジュアル言語モデルのための自己強化型プロンプトチューニング
- Authors: Hantao Yao, Rui Zhang, Lu Yu, Yongdong Zhang, Changsheng Xu,
- Abstract要約: SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
- 参考スコア(独自算出の注目度): 93.94454894142413
- License:
- Abstract: Prompt tuning based on Context Optimization (CoOp) effectively adapts visual-language models (VLMs) to downstream tasks by inferring additional learnable prompt tokens. However, these tokens are less discriminative as they are independent of the pre-trained tokens and fail to capture input-specific knowledge, such as class-aware textual or instance-aware visual knowledge. Leveraging the discriminative and generalization capabilities inherent in pre-trained tokens, we introduce a novel approach named Self-Enhanced Prompt Tuning (SEP). The core principle of SEP involves adapting the learnable prompt tokens at each encoder layer from the corresponding self-pretrained tokens, thereby explicitly incorporating discriminative prior knowledge to enhance both textual-level and visual-level embeddings. Furthermore, SEP's self-enhanced tokens not only boost discrimination but also mitigate domain shifts in unseen domains, enhancing generalization. In practice, SEP selects several representative tokens from all pre-trained tokens for each input data at every layer of the text/visual encoders. Subsequently, a Token Fusion Module (TFM) is introduced to generate a self-enhanced token by merging these representative tokens with the learnable tokens using a cross-attention mechanism. This self-enhanced token is then concatenated with all pre-trained tokens, serving as input for subsequent encoder layers to produce the relevant embeddings. Comprehensive evaluations across various benchmarks and tasks confirm SEP's efficacy in prompt tuning. Code: \href{Code}{https://github.com/htyao89/SEP}.
- Abstract(参考訳): コンテキスト最適化(CoOp)に基づくプロンプトチューニングは、学習可能なプロンプトトークンを推論することで、下流タスクに視覚言語モデル(VLM)を効果的に適応させる。
しかし、これらのトークンは事前訓練されたトークンとは独立しており、クラス対応のテキストやインスタンス対応の視覚的知識のような入力固有の知識を捕捉できないため、識別性は低い。
事前訓練されたトークンに固有の識別・一般化機能を活用することで、自己拡張型プロンプトチューニング(SEP)という新しいアプローチを導入する。
SEPの中核となる原理は、各エンコーダ層における学習可能なプロンプトトークンを対応する自己予測トークンから適応させることであり、それによってテキストレベルと視覚レベルの両方の埋め込みを強化するために、差別的な事前知識を明示的に取り入れることである。
さらに、SEPの自己強化トークンは、差別を促進するだけでなく、目に見えない領域におけるドメインシフトを緩和し、一般化を促進する。
実際には、SEPはテキスト/視覚エンコーダの各層における各入力データに対して、事前訓練されたトークンからいくつかの代表トークンを選択する。
その後、Token Fusion Module(TFM)を導入し、これらの代表トークンと学習可能なトークンをクロスアテンション機構を用いてマージすることで、自己拡張トークンを生成する。
この自己拡張トークンは、後続のエンコーダ層の入力として機能し、関連する埋め込みを生成する。
様々なベンチマークやタスクに対する総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
コード: \href{Code}{https://github.com/htyao89/SEP}。
関連論文リスト
- STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM [59.08493154172207]
本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。
我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。
これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Empowering Character-level Text Infilling by Eliminating Sub-Tokens [34.37743927032878]
FIM-SEは"Fill-In-the-Middle"の略で、開始文字と終了文字の制約がある。
本稿では,FIM-SEについて紹介する。
論文 参考訳(メタデータ) (2024-05-27T12:21:48Z) - TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model [78.77544632773404]
本稿では,テキストベースのクラス認識型Promptチューニング(TCP)を提案する。
TCPは、トレーニング時間の短縮を要求しながら、常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-30T03:59:23Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - RetroMAE v2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [3.4523793651427113]
本稿では,[] と通常のトークンの両方のコンテキスト化埋め込みにおける意味表現能力の向上を目標とする,二重マスク付き自動エンコーダ DupMAE を提案する。
DupMAEは単純だが経験的競争力があり、デコードコストが小さいため、モデルの表現能力と転送可能性に大きく貢献する。
論文 参考訳(メタデータ) (2022-11-16T08:57:55Z) - DisCup: Discriminator Cooperative Unlikelihood Prompt-tuning for
Controllable Text Generation [6.844825905212349]
本稿では,識別器の属性知識を取り入れた新しいCTG手法であるDisCupを提案する。
DisCupは、約10の仮想トークンに頼るだけで、効率的で高品質なテキスト生成を維持しながら、新しい最先端の制御性能を実現することができる。
論文 参考訳(メタデータ) (2022-10-18T02:59:06Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。