論文の概要: Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2303.17169v1
- Date: Thu, 30 Mar 2023 06:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:16:11.421056
- Title: Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのタスク指向マルチモーダル相互傾き
- Authors: Sifan Long, Zhen Zhao, Junkun Yuan, Zichang Tan, Jiangjiang Liu,
Luping Zhou, Shengsheng Wang, Jingdong Wang
- Abstract要約: ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
- 参考スコア(独自算出の注目度): 52.3032592038514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has become one of the most efficient paradigms for adapting
large pre-trained vision-language models to downstream tasks. Current
state-of-the-art methods, like CoOp and ProDA, tend to adopt soft prompts to
learn an appropriate prompt for each specific task. Recent CoCoOp further
boosts the base-to-new generalization performance via an image-conditional
prompt. However, it directly fuses identical image semantics to prompts of
different labels and significantly weakens the discrimination among different
classes as shown in our experiments. Motivated by this observation, we first
propose a class-aware text prompt (CTP) to enrich generated prompts with
label-related image information. Unlike CoCoOp, CTP can effectively involve
image semantics and avoid introducing extra ambiguities into different prompts.
On the other hand, instead of reserving the complete image representations, we
propose text-guided feature tuning (TFT) to make the image branch attend to
class-related representation. A contrastive loss is employed to align such
augmented text and image representations on downstream tasks. In this way, the
image-to-text CTP and text-to-image TFT can be mutually promoted to enhance the
adaptation of VLMs for downstream tasks. Extensive experiments demonstrate that
our method outperforms the existing methods by a significant margin.
Especially, compared to CoCoOp, we achieve an average improvement of 4.03% on
new classes and 3.19% on harmonic-mean over eleven classification benchmarks.
- Abstract(参考訳): プロンプト学習は、大きな事前学習されたビジョン言語モデルを下流タスクに適応させる上で、最も効率的なパラダイムの1つになっている。
CoOpやProDAのような現在の最先端の手法では、特定のタスクごとに適切なプロンプトを学ぶためにソフトプロンプトを採用する傾向がある。
最近のcocoopは、イメージ条件プロンプトによって、ベースから新しい一般化性能をさらに向上させる。
しかし、異なるラベルのプロンプトに同一の画像意味論を直接融合させ、実験で示されたように、異なるクラス間の識別を著しく弱める。
本研究は,まず,ラベル関連画像情報を用いて生成したプロンプトを充実させるクラス認識テキストプロンプト(CTP)を提案する。
CoCoOpとは異なり、CTPは画像セマンティクスを効果的に含み、異なるプロンプトに余分な曖昧さを導入することを避けることができる。
一方、画像表現を完全に保存する代わりに、画像分岐をクラス関連表現に適合させるために、テキスト誘導機能チューニング(TFT)を提案する。
このような拡張テキストとイメージ表現を下流タスクで調整するために、対照的な損失が用いられる。
このように、画像からテキストへのCTPとテキストから画像へのTFTを相互に推進し、下流タスクへのVLMの適応を強化する。
広範囲にわたる実験により,本手法が既存手法を著しく上回ることを示した。
特にCoCoOpと比較して、新しいクラスでは平均4.03%、調和平均ベンチマークでは3.19%の改善が達成されている。
関連論文リスト
- CoAPT: Context Attribute words for Prompt Tuning [5.811993982861212]
少数/ゼロショット画像分類のための新しいプロンプトチューニング手法であるCoAPTを提案する。
中心となる動機は、属性は特定の概念に関する豊富な情報を持つ記述的な単語であるということである。
CoAPTは単語を学習可能なプロンプトチューニングに追加のプロンプトとして統合し、既存の様々なプロンプトチューニング手法に簡単に組み込むことができる。
論文 参考訳(メタデータ) (2024-07-18T08:58:01Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。