論文の概要: Understanding Prompt Tuning for V-L Models Through the Lens of Neural
Collapse
- arxiv url: http://arxiv.org/abs/2306.15955v3
- Date: Thu, 7 Sep 2023 07:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 16:58:41.320301
- Title: Understanding Prompt Tuning for V-L Models Through the Lens of Neural
Collapse
- Title(参考訳): 神経崩壊レンズによるV-Lモデルのプロンプトチューニングの理解
- Authors: Didi Zhu, Zexi Li, Min Zhang, Junkun Yuan, Yunfeng Shao, Jiashuo Liu,
Kun Kuang, Yinchuan Li, Chao Wu
- Abstract要約: 本稿では,テキストと画像表現でプロンプトを学習する新しい手法であるNPTを提案する。
NPTは、言語モダリティの崩壊と多モダリティの同型という2つの正規化用語を取り入れており、他のプロンプトチューニング手法と互換性がある。
- 参考スコア(独自算出の注目度): 47.89674843370092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language (V-L) models have demonstrated remarkable
generalization capabilities for downstream tasks through prompt tuning.
However, the mechanisms behind the learned text representations are unknown,
limiting further generalization gains, especially under class imbalance
scenarios. Recent advances in the neural collapse (NC) phenomenon of
vision-only models suggest that the optimal representation structure is the
simplex ETF, which paves the way to study representations in V-L models. In
this paper, we make the first attempt to use NC for examining the
representations in V-L models via prompt tuning. It is found that NC optimality
of text-to-image representations shows a positive correlation with downstream
generalizability, which is more severe under class imbalance settings. To
improve the representations, we propose Neural-collapse-anchored Prompt Tuning
(NPT), a novel method that learns prompts with text and image representations
that satisfy the same simplex ETF. NPT incorporates two regularization terms:
language-modality collapse and multi-modality isomorphism; and it is compatible
with other prompt tuning methods. Extensive experiments show that NPT can
consistently help to improve existing prompt tuning techniques across 11
datasets for both balanced and imbalanced settings.
- Abstract(参考訳): 大規模視覚言語モデル (V-L) は, 高速チューニングによる下流タスクの顕著な一般化機能を示した。
しかし、学習したテキスト表現の背後にあるメカニズムは不明であり、特にクラス不均衡のシナリオにおいて、さらなる一般化のゲインを制限する。
視覚のみのモデルにおける神経崩壊(NC)現象の最近の進歩は、最適な表現構造が単純なETFであり、V-Lモデルにおける表現の研究の道を開くことを示唆している。
本稿では,プロンプトチューニングによるV-Lモデルの表現の検証にNCを用いた最初の試みを行う。
その結果,テキスト対画像表現のnc最適性は下流汎化可能性と正の相関を示し,クラス不均衡設定下ではより厳格であることがわかった。
そこで本研究では,同じetfを満たすテキストと画像表現を用いてプロンプトを学習する新しい手法であるneural-collapse-anchored prompt tuning (npt)を提案する。
NPTは、言語モダリティの崩壊と多モダリティの同型という2つの正規化用語を取り入れている。
大規模な実験により、NTTはバランスの取れた設定と不均衡な設定の両方で、11データセットにわたる既存のプロンプトチューニング技術を改善するのに一貫して役立つことが示されている。
関連論文リスト
- Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - DRPT: Disentangled and Recurrent Prompt Tuning for Compositional
Zero-Shot Learning [15.580557941267095]
状態とオブジェクトのプリミティブは、プロンプトに埋め込まれ、目に見えない構成にチューニングされた語彙の学習可能なトークンと見なされる。
プロンプトを段階的に更新できるプログレッシブな微調整手順を開発した。
合成ゼロショット学習における絡み合いの定量化と解析を行う。
論文 参考訳(メタデータ) (2023-05-02T07:42:47Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Prompt Tuning for Generative Multimodal Pretrained Models [75.44457974275154]
我々は、理解タスクと生成タスクの両方に適応した統合シーケンス・ツー・シーケンス事前学習モデルに、即時チューニングを実装した。
実験結果から,軽量なプロンプトチューニングはファインタニングで同等の性能を発揮することが示された。
微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
論文 参考訳(メタデータ) (2022-08-04T08:56:38Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。