論文の概要: Modeling Variants of Prompts for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.08229v1
- Date: Tue, 11 Mar 2025 09:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:24.785406
- Title: Modeling Variants of Prompts for Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるプロンプトの変数のモデル化
- Authors: Ao Li, Zongfang Liu, Xinhua Li, Jinghui Zhang, Pengwei Wang, Hu Wang,
- Abstract要約: 本稿では、視覚言語モデルに対する異なるプロンプトテンプレートに対するロバスト性を評価するための、体系的なベンチマークであるRobustPrompt Benchmarkを紹介する。
本稿では,プロンプトの変種をモデル化することによって感度を緩和する簡易かつ効果的な手法であるCM(Modeling Variants of Prompts)を提案する。
MVPは、パフォーマンスの低下なしに、入力プロンプトのバリエーションに対するモデルロバスト性を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 3.8977934911671013
- License:
- Abstract: Large pre-trained vision-language models (VLMs) offer a promising approach to leveraging human language for enhancing downstream tasks. However, VLMs such as CLIP face significant limitation: its performance is highly sensitive to prompt template design. Although prompt learning methods can address the sensitivity issue by replacing natural language prompts with learnable ones, they are incomprehensible to humans. Ensuring consistent performance across various prompt templates enables models to adapt seamlessly to diverse phrasings, enhancing their ability to handle downstream tasks without requiring extensive prompt engineering. In this work, we introduce the RobustPrompt Benchmark, a systematic benchmark to evaluate robustness to different prompt templates for VLMs. It includes a dataset with hundreds of carefully designed prompt templates, divided into six types, covering a wide variety of commonly used templates. Beside the benchmark, we propose Modeling Variants of Prompts (MVP), a simple yet effective method that mitigates sensitivity by modeling variants of prompt structures. The innovation of MVP lies in decoupling prompts into templates and class names, and using Variational Autoencoders (VAE) to model the distribution of diverse prompt structures. Experiments across 11 datasets demonstrate that MVP can greatly enhance model robustness to variations in input prompts without a drop in performance. The code is available at https://github.com/xiaoyaoxinyi/MVP.
- Abstract(参考訳): 大規模な事前学習型視覚言語モデル(VLM)は、下流タスクを強化するために人間の言語を活用するための有望なアプローチを提供する。
しかし、CLIPのようなVLMには大きな制限があり、その性能はテンプレート設計に非常に敏感である。
素早い学習法は、自然言語のプロンプトを学習可能なものに置き換えることで、感度の問題に対処することができるが、人間には理解できない。
さまざまなプロンプトテンプレート間で一貫したパフォーマンスを確保することで、モデルが多様なフレーズにシームレスに適応し、広範囲なプロンプトエンジニアリングを必要とせずに下流タスクを処理する能力を高めることができる。
本稿では,VLM の異なるプロンプトテンプレートに対するロバスト性を評価するためのベンチマークである RobustPrompt Benchmark を紹介する。
数百の慎重に設計されたプロンプトテンプレートを備えたデータセットを含み、6つのタイプに分けられ、多種多様な一般的なテンプレートをカバーする。
ベンチマークの他に,プロンプトのモデリング変数 (MVP) を提案する。これは,プロンプト構造の変種をモデル化することによって感度を緩和する,単純かつ効果的な手法である。
MVPのイノベーションは、テンプレートとクラス名への切り離しプロンプトと、多様なプロンプト構造の分布をモデル化するための変分自動エンコーダ(VAE)の使用にある。
11のデータセットを対象とした実験では、MVPがパフォーマンスの低下なしに入力プロンプトのバリエーションに対して、モデルロバスト性を大幅に向上できることが示されている。
コードはhttps://github.com/xiaoyaoxinyi/MVPで公開されている。
関連論文リスト
- Does Prompt Formatting Have Any Impact on LLM Performance? [10.869929764785464]
本稿では,異なるプロンプトテンプレートが大規模言語モデル(LLM)の性能に与える影響について検討する。
自然言語推論やコード生成,OpenAIのGPTモデルを用いた翻訳といったタスクに対する影響を評価した。
実験の結果、GPT-3.5-turboの性能はプロンプトテンプレートによって最大40%変化し、GPT-4のような大型モデルはより堅牢であることがわかった。
論文 参考訳(メタデータ) (2024-11-15T19:26:38Z) - IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - An Information-theoretic Approach to Prompt Engineering Without Ground
Truth Labels [55.06990011183662]
我々は、ラベル付き例やtextitwithout のモデルへの直接アクセスなしに、プロンプトテンプレートを選択する新しい方法を提案する。
7つの異なるNLPタスクを表す8つのデータセットにまたがって、テンプレートが高い相互情報を持つ場合、そのタスクに対して高い精度を持つことを示す。
論文 参考訳(メタデータ) (2022-03-21T21:51:43Z) - Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified
Multilingual Prompt [98.26682501616024]
我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。
統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。
提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
論文 参考訳(メタデータ) (2022-02-23T11:57:52Z) - Differentiable Prompt Makes Pre-trained Language Models Better Few-shot
Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。
小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。
標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T12:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。