論文の概要: Learning Expressive Prompting With Residuals for Vision Transformers
- arxiv url: http://arxiv.org/abs/2303.15591v1
- Date: Mon, 27 Mar 2023 20:47:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 17:18:12.555089
- Title: Learning Expressive Prompting With Residuals for Vision Transformers
- Title(参考訳): 視覚変換器の残差を用いた表現型プロンプト学習
- Authors: Rajshekhar Das, Yonatan Dukler, Avinash Ravichandran, Ashwin
Swaminathan
- Abstract要約: 視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したEXPRES(Expressive Prompts with Residuals)を提案する。
本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,少ないショット学習,セマンティックセマンティックセマンティックセマンティクスにEXPRESを適用した。
- 参考スコア(独自算出の注目度): 11.342913284654706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning is an efficient approach to adapt transformers by inserting
learnable set of parameters into the input and intermediate representations of
a pre-trained model. In this work, we present Expressive Prompts with Residuals
(EXPRES) which modifies the prompt learning paradigm specifically for effective
adaptation of vision transformers (ViT). Out method constructs downstream
representations via learnable ``output'' tokens, that are akin to the learned
class tokens of the ViT. Further for better steering of the downstream
representation processed by the frozen transformer, we introduce residual
learnable tokens that are added to the output of various computations. We apply
EXPRES for image classification, few shot learning, and semantic segmentation,
and show our method is capable of achieving state of the art prompt tuning on
3/3 categories of the VTAB benchmark. In addition to strong performance, we
observe that our approach is an order of magnitude more prompt efficient than
existing visual prompting baselines. We analytically show the computational
benefits of our approach over weight space adaptation techniques like
finetuning. Lastly we systematically corroborate the architectural design of
our method via a series of ablation experiments.
- Abstract(参考訳): Prompt Learningは、学習可能なパラメータのセットを事前学習されたモデルの入力および中間表現に挿入することで、トランスフォーマーを適応するための効率的なアプローチである。
本研究では,視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したExpressive Prompts with Residuals(EXPRES)を提案する。
outメソッドは、vitの学習したクラストークンに似た、学習可能な``output'’トークンを介して下流表現を構築する。
さらに, 冷凍変圧器が処理する下流表現のステアリングを改善するために, 各種計算の出力に付加される残差学習可能なトークンを導入する。
本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,画像学習,セマンティックセマンティックセグメンテーションにEXPRESを適用した。
強力なパフォーマンスに加えて、既存のビジュアルプロンプトベースラインよりも、我々のアプローチが桁違いに高速であることを観察しました。
ファインタニングのような重み空間適応技術に対するアプローチの計算的利点を解析的に示す。
最後に,一連のアブレーション実験を通じて,手法のアーキテクチャ設計を体系的に協調する。
関連論文リスト
- GIFT: Generative Interpretable Fine-Tuning Transformers [9.532589580200437]
本稿では, GIFT (Generative Interpretable Fine-tuning Transformer) を用いて, 微調整事前学習型トランスモデルを提案する。
我々のGIFTは深層パラメータ残差学習法であり、事前学習されたトランスフォーマーモデルを微調整する際の2つの問題に対処する。
実験では,提案したGIFTをVTABベンチマークときめ細かい視覚分類ベンチマークで検証した。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up
Patch Summarization [89.52943129132217]
本稿では,BUS という名前のボトムアップ・パッチ・サマリゼーション手法を提案し,視覚的トークン列の簡潔な要約を効率的に学習する。
テキスト・セマンティックス・アウェア・パッチセレクタ(TSPS)をViTバックボーンに組み込んで粗い粒度のビジュアルトークン抽出を行う。
このボトムアップコラボレーションによって、BUSは高いトレーニング効率を得られると同時に、効率性を維持したり、改善したりすることができます。
論文 参考訳(メタデータ) (2023-07-17T14:08:17Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - ExpPoint-MAE: Better interpretability and performance for
self-supervised point cloud transformers [9.881466104115352]
マスク付き自動符号化の有効性を事前学習方式として評価し,代替手段としてMomentum Contrastを探索する。
我々は,トランスフォーマーが意味論的に意味のある領域への参加を学ぶことを観察し,事前学習が基礎となる幾何学の理解を深めることを示す。
論文 参考訳(メタデータ) (2023-06-19T09:38:21Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text [93.11954811297652]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。
我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。
実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文 参考訳(メタデータ) (2021-12-14T00:20:55Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Improving Transformation Invariance in Contrastive Representation
Learning [31.223892428863238]
本稿では、新しい正規化器を用いて変換下で表現がどのように変化するかを制御するコントラスト学習のための学習目標を提案する。
第二に、元の入力の複数の変換からのエンコーディングを結合した機能平均化アプローチを導入することにより、テスト時間表現の生成方法を変更することを提案する。
第三に、複数の下流タスクを持つ微分可能生成プロセスの文脈において、私たちのアイデアを探求するために、新しいSpirographデータセットを導入します。
論文 参考訳(メタデータ) (2020-10-19T13:49:29Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。