論文の概要: Towards Robust Prompts on Vision-Language Models
- arxiv url: http://arxiv.org/abs/2304.08479v1
- Date: Mon, 17 Apr 2023 17:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:05:26.089656
- Title: Towards Robust Prompts on Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるロバスト・プロンプトに向けて
- Authors: Jindong Gu, Ahmad Beirami, Xuezhi Wang, Alex Beutel, Philip Torr, Yao
Qin
- Abstract要約: 本稿ではまず,視覚言語モデル(VLM)上での分布シフトに対する頑健性について2つのタイプを定義した。
既存の文脈内学習の頑健さと学習の素早いアプローチについて検討し、素早い学習がベースクラスのテスト画像に頑健に作用するのに対して、新規クラスの画像にはあまり効果がないことを示した。
本稿では,複数の画像特徴をプロンプトに組み込むことにより,ロバストなプロンプト学習を提案する。
- 参考スコア(独自算出の注目度): 30.14218022691102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of vision-language models (VLMs) that can perform in-context
and prompt-based learning, how can we design prompting approaches that robustly
generalize to distribution shift and can be used on novel classes outside the
support set of the prompts? In this work, we first define two types of
robustness to distribution shift on VLMs, namely, robustness on base classes
(the classes included in the support set of prompts) and robustness on novel
classes. Then, we study the robustness of existing in-context learning and
prompt learning approaches, where we find that prompt learning performs
robustly on test images from base classes, while it does not generalize well on
images from novel classes. We propose robust prompt learning by integrating
multiple-scale image features into the prompt, which improves both types of
robustness. Comprehensive experiments are conducted to study the defined
robustness on six benchmarks and show the effectiveness of our proposal.
- Abstract(参考訳): 文脈内およびプロンプトベース学習が可能な視覚言語モデル(VLM)の出現により、分散シフトに頑健に一般化し、プロンプトのサポートセット外の新しいクラスで使用できるプロンプト的アプローチをどのように設計できるだろうか?
本稿ではまず,ベースクラスのロバスト性(プロンプトのサポートセットに含まれるクラス)と新規クラスのロバスト性という,vlm上の分散シフトに対する2つのタイプのロバスト性を定義する。
次に,既存のインコンテキスト学習とプロンプト学習のロバスト性について検討し,基礎クラスのテスト画像ではプロンプト学習がロバストに機能するのに対し,新規クラスの画像では一般化しないことを示す。
本研究では,複数の画像特徴をプロンプトに統合することでロバストなプロンプト学習を提案する。
6つのベンチマークで定義されたロバスト性を調査し,提案手法の有効性を示すため,包括的な実験を行った。
関連論文リスト
- Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - CoPL: Contextual Prompt Learning for Vision-Language Understanding [21.709017504227823]
画像の局所的な特徴にプロンプトを調整できるコンテキスト型プロンプト学習(CoPL)フレームワークを提案する。
これまでの研究における重要なイノベーションは、素早い学習プロセスの一部としてローカルな画像機能を使うこと、そしてさらに重要なのは、そのタスクに適したローカルな機能に基づいてこれらのプロンプトを重み付けすることである。
本手法は, 工法の現状と比較して, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-07-03T10:14:33Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。