論文の概要: Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models
- arxiv url: http://arxiv.org/abs/2203.17274v1
- Date: Thu, 31 Mar 2022 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:09:15.817423
- Title: Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models
- Title(参考訳): Visual Prompting: 事前トレーニングされたモデルに適応するピクセル空間の修正
- Authors: Hyojin Bahng, Ali Jahanian, Swami Sankaranarayanan, Phillip Isola
- Abstract要約: 本稿では,この摂動によって引き起こされる凍結事前学習モデルが新たなタスクを実行するように,タスク固有のイメージ摂動を学習する視覚的プロンプトを導入する。
数ピクセルだけを変えるだけで、新しいタスクやデータセットにモデルを適用することができ、線形探索と同等の性能を発揮することが分かりました。
- 参考スコア(独自算出の注目度): 29.413887954758053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompting has recently become a popular paradigm for adapting language models
to downstream tasks. Rather than fine-tuning model parameters or adding
task-specific heads, this approach steers a model to perform a new task simply
by adding a text prompt to the model's inputs. In this paper, we explore the
question: can we create prompts with pixels instead? In other words, can
pre-trained vision models be adapted to a new task solely by adding pixels to
their inputs? We introduce visual prompting, which learns a task-specific image
perturbation such that a frozen pre-trained model prompted with this
perturbation performs a new task. We discover that changing only a few pixels
is enough to adapt models to new tasks and datasets, and performs on par with
linear probing, the current de facto approach to lightweight adaptation. The
surprising effectiveness of visual prompting provides a new perspective on how
to adapt pre-trained models in vision, and opens up the possibility of adapting
models solely through their inputs, which, unlike model parameters or outputs,
are typically under an end-user's control. Code is available at
http://hjbahng.github.io/visual_prompting .
- Abstract(参考訳): Promptingは最近、下流タスクに言語モデルを適用するための一般的なパラダイムになっています。
モデルパラメータの微調整やタスク固有のヘッドの追加ではなく、このアプローチでは、モデルの入力にテキストプロンプトを追加するだけで、新しいタスクを実行するようにモデルを制御します。
本稿では,代わりに画素でプロンプトを作成できるのか,という問いについて考察する。
言い換えれば、事前学習された視覚モデルは、入力にピクセルを追加するだけで新しいタスクに適応できるのだろうか?
我々は,この摂動によって引き起こされる凍結事前学習モデルが新たなタスクを実行するように,タスク固有の画像摂動を学習するビジュアルプロンプトを導入する。
数ピクセルだけを変えるだけで、新しいタスクやデータセットにモデルを適用することができ、現在の軽量適応に対するデファクトアプローチである線形探索と同等に機能することを発見した。
視覚的プロンプトの驚くべき効果は、事前訓練されたモデルを視覚的に適応する方法の新しい視点を提供し、モデルパラメータや出力とは異なり、通常エンドユーザの制御下にある入力のみを通じてモデルを適用する可能性を開放する。
コードはhttp://hjbahng.github.io/visual_prompting.com/で入手できる。
関連論文リスト
- Making the Most of What You Have: Adapting Pre-trained Visual Language
Models in the Low-data Regime [23.255873641249263]
低データ構造におけるタスク適応について検討し、生成型ビジュアル言語モデルに対する既存の適応手法について検討する。
我々は,多数の未ラベル画像にアクセスする際に,モデル自身の予測を用いて自己改善を行うという,自己ラベル化の重要な利点を示す。
論文 参考訳(メタデータ) (2023-05-03T17:42:54Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Prompt Tuning based Adapter for Vision-Language Model Adaption [38.576215369504446]
本稿では、事前学習したプロンプト・タニングと効率的な適応ネットワークを組み合わせた、Prompt-Adapterと呼ばれる新しいモデルを提案する。
我々のアプローチは、パブリックな11のデータセットの少数ショット画像分類において最先端の手法を上回った。
提案手法は,高速な視覚言語モデル適応のために,プロンプトチューニングとパラメータ効率のよいネットワークを組み合わせることの可能性を実証する。
論文 参考訳(メタデータ) (2023-03-24T15:05:17Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Mini-Model Adaptation: Efficiently Extending Pretrained Models to New
Languages via Aligned Shallow Training [36.5936227129021]
トランスフォーマー本体を凍結させながら、新しい組込みを学習することで、事前訓練されたマスケッド言語モデルを新しい言語に拡張することができる。
我々は,大容量モデルのパラメータのごく一部から浅いミニモデルを構築する計算効率の代替モデルであるミニモデル適応を提案する。
新しい言語固有の埋め込みは、ミニモデル上で効率的に訓練され、高速な言語間移動のために整列した大きなモデルにプラグインされる。
論文 参考訳(メタデータ) (2022-12-20T18:17:28Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Visual Prompting via Image Inpainting [104.98602202198668]
そこで本研究では,NLPにインスパイアされた新しいタスクの入力出力画像例と新しい入力画像の視覚的プロンプトについて検討する。
事前学習したモデルに視覚的プロンプトを適用し、様々なダウンストリームイメージ・ツー・イメージタスクで結果を示す。
論文 参考訳(メタデータ) (2022-09-01T17:59:33Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。