論文の概要: Nemesis: Normalizing the Soft-prompt Vectors of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.13979v1
- Date: Mon, 26 Aug 2024 02:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:12:30.847010
- Title: Nemesis: Normalizing the Soft-prompt Vectors of Vision-Language Models
- Title(参考訳): ネメシス:視覚言語モデルのソフトプロンプトベクトルの正規化
- Authors: Shuai Fu, Xiequn Wang, Qiushi Huang, Yu Zhang,
- Abstract要約: 視覚言語モデル(VLM)におけるソフトプロンプトベクトルのノルムの役割について検討する。
テキストbfNormalizing thtextbfe soft-protextbfmpt vtextbfectors of vitextbfsion- language modeltextbfs (textbfNemesis) to normalize soft-prompt vectors。
- 参考スコア(独自算出の注目度): 5.58681637186155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prevalence of large-scale pretrained vision-language models (VLMs), such as CLIP, soft-prompt tuning has become a popular method for adapting these models to various downstream tasks. However, few works delve into the inherent properties of learnable soft-prompt vectors, specifically the impact of their norms to the performance of VLMs. This motivates us to pose an unexplored research question: ``Do we need to normalize the soft prompts in VLMs?'' To fill this research gap, we first uncover a phenomenon, called the \textbf{Low-Norm Effect} by performing extensive corruption experiments, suggesting that reducing the norms of certain learned prompts occasionally enhances the performance of VLMs, while increasing them often degrades it. To harness this effect, we propose a novel method named \textbf{N}ormalizing th\textbf{e} soft-pro\textbf{m}pt v\textbf{e}ctors of vi\textbf{si}on-language model\textbf{s} (\textbf{Nemesis}) to normalize soft-prompt vectors in VLMs. To the best of our knowledge, our work is the first to systematically investigate the role of norms of soft-prompt vector in VLMs, offering valuable insights for future research in soft-prompt tuning. The code is available at \texttt{\href{https://github.com/ShyFoo/Nemesis}{https://github.com/ShyFoo/Nemesis}}.
- Abstract(参考訳): CLIPのような大規模事前学習型視覚言語モデル(VLM)の普及に伴い、ソフトプロンプトチューニングは、これらのモデルを様々な下流タスクに適応するための一般的な手法となっている。
しかしながら、学習可能なソフトプロンプトベクトルの性質、特にVLMの性能に対するそれらのノルムの影響を掘り下げる研究はほとんどない。
この研究のギャップを埋めるために、我々はまず、大規模な汚職実験を行うことで、"textbf{Low-Norm Effect"と呼ばれる現象を発見し、ある学習されたプロンプトのノルムを減らすことで、VLMの性能を一時的に向上させ、しばしば劣化させる。
この効果を利用するために、VLMのソフトプロンプトベクトルを正規化するために、vi\textbf{si}on-Language model\textbf{s} (\textbf{Nemesis}) の th\textbf{e} soft-pro\textbf{m}pt v\textbf{e}ctors という新しい手法を提案する。
我々の知識を最大限に活用するために、我々の研究はVLMにおけるソフトプロンプトベクトルのノルムの役割を体系的に研究し、ソフトプロンプトチューニングの今後の研究に有用な洞察を提供する最初のものである。
コードは \texttt{\href{https://github.com/ShyFoo/Nemesis}{https://github.com/ShyFoo/Nemesis}} で公開されている。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - CluMo: Cluster-based Modality Fusion Prompt for Continual Learning in Visual Question Answering [23.360714576158905]
大規模視覚言語モデル(VLM)は、様々なアプリケーション領域で大幅な性能向上を示している。
タスク上でVLMを微調整すると、その一般化能力と新しいタスクの学習能力が低下する。
本稿では,VLM の新しいプロンプトベースCL法,すなわち $textbfClu$ster-based $textbfMo$dality Fusion Prompt (textbfCluMo)を提案する。
論文 参考訳(メタデータ) (2024-08-21T16:07:49Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - Towards Consistent Video Editing with Text-to-Image Diffusion Models [10.340371518799444]
既存の作品には、ビデオ編集のための高度なテキスト・ツー・イメージ(TTI)拡散モデルがある。
これらの手法は、テキストプロンプトと時間的シーケンスとの不満足な一貫性の結果を生み出す可能性がある。
我々は,textbfEnhancing vtextbfIdeo textbfEditing constextbfIstency of TTI-based frameworkを提案する。
論文 参考訳(メタデータ) (2023-05-27T10:03:36Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Prompt-aligned Gradient for Prompt Tuning [63.346864107288766]
本稿では,視覚言語モデル(VLM)から学んだ一般的な知識を,即時チューニングが忘れないようにするために,ProGradと呼ばれるPrompt対応のグラディエントを提案する。
ProGradは、勾配が「一般的な方向」に一致しているプロンプトのみを更新し、事前に定義されたプロンプト予測のKL損失の勾配として表される。
実験では、最先端のプロンプトチューニング手法に対して、ProGradのより強力な数ショットの一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-30T06:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。