論文の概要: Visual Query Tuning: Towards Effective Usage of Intermediate
Representations for Parameter and Memory Efficient Transfer Learning
- arxiv url: http://arxiv.org/abs/2212.03220v2
- Date: Thu, 27 Apr 2023 00:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 16:55:29.901720
- Title: Visual Query Tuning: Towards Effective Usage of Intermediate
Representations for Parameter and Memory Efficient Transfer Learning
- Title(参考訳): ビジュアルクエリチューニング:パラメータとメモリ効率の学習における中間表現の効果的な利用に向けて
- Authors: Cheng-Hao Tu, Zheda Mai, Wei-Lun Chao
- Abstract要約: 視覚変換器の中間機能を集約する視覚クエリチューニング(VQT)を提案する。
VQTは中間機能をそのままに保ち、それらを組み合わせることしか学ばないため、トレーニングではメモリ効率がよい。
VQTは、トランスファーラーニングに中間機能を利用する最先端のアプローチを一貫して超越している。
- 参考スコア(独自算出の注目度): 19.254454866466187
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Intermediate features of a pre-trained model have been shown informative for
making accurate predictions on downstream tasks, even if the model backbone is
kept frozen. The key challenge is how to utilize these intermediate features
given their gigantic amount. We propose visual query tuning (VQT), a simple yet
effective approach to aggregate intermediate features of Vision Transformers.
Through introducing a handful of learnable ``query'' tokens to each layer, VQT
leverages the inner workings of Transformers to ``summarize'' rich intermediate
features of each layer, which can then be used to train the prediction heads of
downstream tasks. As VQT keeps the intermediate features intact and only learns
to combine them, it enjoys memory efficiency in training, compared to many
other parameter-efficient fine-tuning approaches that learn to adapt features
and need back-propagation through the entire backbone. This also suggests the
complementary role between VQT and those approaches in transfer learning.
Empirically, VQT consistently surpasses the state-of-the-art approach that
utilizes intermediate features for transfer learning and outperforms full
fine-tuning in many cases. Compared to parameter-efficient approaches that
adapt features, VQT achieves much higher accuracy under memory constraints.
Most importantly, VQT is compatible with these approaches to attain even higher
accuracy, making it a simple add-on to further boost transfer learning.
- Abstract(参考訳): 事前トレーニングされたモデルの中間機能は、モデルバックボーンが凍結されている場合でも、下流タスクの正確な予測に役立っていることが示されている。
重要な課題は、これらの中間機能をどのように活用するかだ。
視覚変換器の中間的特徴を集約するシンプルな手法として視覚クエリチューニング(VQT)を提案する。
学習可能な ``query'' トークンを各レイヤに導入することで、VQT は Transformers の内部動作を活用して、各レイヤの ``summarize' の豊富な中間機能を実現し、下流タスクの予測ヘッドをトレーニングすることができる。
vqtは中間機能をそのまま維持し、それらを組み合わせることのみを学習するので、他の多くのパラメータ効率の良い微調整アプローチと比較して、トレーニングでのメモリ効率が向上する。
このことは、転移学習におけるVQTとそれらのアプローチの相補的な役割を示唆している。
実証的には、VQTはトランスファーラーニングの中間機能を利用する最先端のアプローチを一貫して上回り、多くの場合、完全な微調整よりも優れている。
特徴に適応するパラメータ効率のアプローチと比較して、VQTはメモリ制約下ではるかに高い精度を達成する。
最も重要な点として、VQTはこれらのアプローチと互換性があり、さらに高い精度を達成することができる。
関連論文リスト
- Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer
Learning for Point Cloud Analysis [53.70588957376317]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - TOAST: Transfer Learning via Attention Steering [77.83191769502763]
現在の伝達学習法は、しばしばタスク関連機能に焦点をあてることに失敗する。
タスク固有の特徴に注意を向ける新しい伝達学習アルゴリズムであるTop-Down Attention Steering(TOAST)を紹介する。
TOASTは、さまざまなきめ細かい視覚分類データセットのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-05-24T20:03:04Z) - Med-Tuning: Parameter-Efficient Transfer Learning with Fine-Grained
Feature Enhancement for Medical Volumetric Segmentation [39.03567546539026]
本稿では,医療用ボリュームセグメンテーションのためのパラメータ効率変換学習について述べる。
我々は,段階内特徴強調と段階間特徴相互作用に基づくMed-Tuningという新しいフレームワークを提案する。
本手法は,従来のセグメンテーションタスクにおけるパラメータ効率のよい移動学習法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2023-04-21T10:47:13Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks [38.43269863509866]
パラメータ効率のよい微調整をいかに行うかは、素早い移動学習と展開においてかなり重要になっている。
我々は、純粋言語とV&Lタスクの両方で効果的に機能する新しいパラメータ効率変換学習フレームワークを設計する。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現している。
論文 参考訳(メタデータ) (2022-03-08T06:51:33Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。