論文の概要: Nemesis: Normalizing the Soft-prompt Vectors of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.13979v1
- Date: Mon, 26 Aug 2024 02:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-27 15:12:30.847010
- Title: Nemesis: Normalizing the Soft-prompt Vectors of Vision-Language Models
- Title(参考訳): ネメシス:視覚言語モデルのソフトプロンプトベクトルの正規化
- Authors: Shuai Fu, Xiequn Wang, Qiushi Huang, Yu Zhang,
- Abstract要約: 視覚言語モデル(VLM)におけるソフトプロンプトベクトルのノルムの役割について検討する。
テキストbfNormalizing thtextbfe soft-protextbfmpt vtextbfectors of vitextbfsion- language modeltextbfs (textbfNemesis) to normalize soft-prompt vectors。
- 参考スコア(独自算出の注目度): 5.58681637186155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prevalence of large-scale pretrained vision-language models (VLMs), such as CLIP, soft-prompt tuning has become a popular method for adapting these models to various downstream tasks. However, few works delve into the inherent properties of learnable soft-prompt vectors, specifically the impact of their norms to the performance of VLMs. This motivates us to pose an unexplored research question: ``Do we need to normalize the soft prompts in VLMs?'' To fill this research gap, we first uncover a phenomenon, called the \textbf{Low-Norm Effect} by performing extensive corruption experiments, suggesting that reducing the norms of certain learned prompts occasionally enhances the performance of VLMs, while increasing them often degrades it. To harness this effect, we propose a novel method named \textbf{N}ormalizing th\textbf{e} soft-pro\textbf{m}pt v\textbf{e}ctors of vi\textbf{si}on-language model\textbf{s} (\textbf{Nemesis}) to normalize soft-prompt vectors in VLMs. To the best of our knowledge, our work is the first to systematically investigate the role of norms of soft-prompt vector in VLMs, offering valuable insights for future research in soft-prompt tuning. The code is available at \texttt{\href{https://github.com/ShyFoo/Nemesis}{https://github.com/ShyFoo/Nemesis}}.
- Abstract(参考訳): CLIPのような大規模事前学習型視覚言語モデル(VLM)の普及に伴い、ソフトプロンプトチューニングは、これらのモデルを様々な下流タスクに適応するための一般的な手法となっている。
しかしながら、学習可能なソフトプロンプトベクトルの性質、特にVLMの性能に対するそれらのノルムの影響を掘り下げる研究はほとんどない。
この研究のギャップを埋めるために、我々はまず、大規模な汚職実験を行うことで、"textbf{Low-Norm Effect"と呼ばれる現象を発見し、ある学習されたプロンプトのノルムを減らすことで、VLMの性能を一時的に向上させ、しばしば劣化させる。
この効果を利用するために、VLMのソフトプロンプトベクトルを正規化するために、vi\textbf{si}on-Language model\textbf{s} (\textbf{Nemesis}) の th\textbf{e} soft-pro\textbf{m}pt v\textbf{e}ctors という新しい手法を提案する。
我々の知識を最大限に活用するために、我々の研究はVLMにおけるソフトプロンプトベクトルのノルムの役割を体系的に研究し、ソフトプロンプトチューニングの今後の研究に有用な洞察を提供する最初のものである。
コードは \texttt{\href{https://github.com/ShyFoo/Nemesis}{https://github.com/ShyFoo/Nemesis}} で公開されている。
関連論文リスト
- ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation [40.73687553764341]
大規模データセットでトレーニングされたテキスト・ツー・ビデオ(T2V)生成モデルは、入力プロンプトに敏感である。
textbfRAPO, a novel textbfRetrieval-textbfAugmented textbfPrompt textbfOptimization frameworkを紹介する。
論文 参考訳(メタデータ) (2025-04-16T03:33:25Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - CluMo: Cluster-based Modality Fusion Prompt for Continual Learning in Visual Question Answering [23.360714576158905]
大規模視覚言語モデル(VLM)は、様々なアプリケーション領域で大幅な性能向上を示している。
タスク上でVLMを微調整すると、その一般化能力と新しいタスクの学習能力が低下する。
本稿では,VLM の新しいプロンプトベースCL法,すなわち $textbfClu$ster-based $textbfMo$dality Fusion Prompt (textbfCluMo)を提案する。
論文 参考訳(メタデータ) (2024-08-21T16:07:49Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval [73.82017200889906]
テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
我々は,グローバルローカルなビデオアテンションを考慮したモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成するために,共有潜在空間を用いる。
論文 参考訳(メタデータ) (2024-01-19T09:58:06Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Prompt-based Context- and Domain-aware Pretraining for Vision and
Language Navigation [19.793659852435486]
本稿では,これらの問題に対処する新しい Prompt-bAsed coNtext- and inDoor-Aware (PANDA) プレトレーニングフレームワークを提案する。
室内認識の段階では,室内データセットから深い視覚的プロンプトを学習するために,効率的なチューニングパラダイムを適用している。
文脈認識の段階では、命令中のシーケンスレベルの意味をキャプチャするハードコンテキストプロンプトのセットを設計する。
論文 参考訳(メタデータ) (2023-09-07T11:58:34Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Towards Consistent Video Editing with Text-to-Image Diffusion Models [10.340371518799444]
既存の作品には、ビデオ編集のための高度なテキスト・ツー・イメージ(TTI)拡散モデルがある。
これらの手法は、テキストプロンプトと時間的シーケンスとの不満足な一貫性の結果を生み出す可能性がある。
我々は,textbfEnhancing vtextbfIdeo textbfEditing constextbfIstency of TTI-based frameworkを提案する。
論文 参考訳(メタデータ) (2023-05-27T10:03:36Z) - Self-supervised Meta-Prompt Learning with Meta-Gradient Regularization
for Few-shot Generalization [40.45470744120691]
MEta-gradient regularization for few-shot generalization (SUPMER)による自己改善メタプロンプト学習フレームワーク
本稿では,Meta-gradient regularization for few-shot generalization (SUPMER)を用いた自己改善メタプロンプト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-22T05:04:21Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Prompt-aligned Gradient for Prompt Tuning [63.346864107288766]
本稿では,視覚言語モデル(VLM)から学んだ一般的な知識を,即時チューニングが忘れないようにするために,ProGradと呼ばれるPrompt対応のグラディエントを提案する。
ProGradは、勾配が「一般的な方向」に一致しているプロンプトのみを更新し、事前に定義されたプロンプト予測のKL損失の勾配として表される。
実験では、最先端のプロンプトチューニング手法に対して、ProGradのより強力な数ショットの一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-30T06:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。