論文の概要: Visual Query Tuning: Towards Effective Usage of Intermediate
Representations for Parameter and Memory Efficient Transfer Learning
- arxiv url: http://arxiv.org/abs/2212.03220v2
- Date: Thu, 27 Apr 2023 00:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 16:55:29.901720
- Title: Visual Query Tuning: Towards Effective Usage of Intermediate
Representations for Parameter and Memory Efficient Transfer Learning
- Title(参考訳): ビジュアルクエリチューニング:パラメータとメモリ効率の学習における中間表現の効果的な利用に向けて
- Authors: Cheng-Hao Tu, Zheda Mai, Wei-Lun Chao
- Abstract要約: 視覚変換器の中間機能を集約する視覚クエリチューニング(VQT)を提案する。
VQTは中間機能をそのままに保ち、それらを組み合わせることしか学ばないため、トレーニングではメモリ効率がよい。
VQTは、トランスファーラーニングに中間機能を利用する最先端のアプローチを一貫して超越している。
- 参考スコア(独自算出の注目度): 19.254454866466187
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Intermediate features of a pre-trained model have been shown informative for
making accurate predictions on downstream tasks, even if the model backbone is
kept frozen. The key challenge is how to utilize these intermediate features
given their gigantic amount. We propose visual query tuning (VQT), a simple yet
effective approach to aggregate intermediate features of Vision Transformers.
Through introducing a handful of learnable ``query'' tokens to each layer, VQT
leverages the inner workings of Transformers to ``summarize'' rich intermediate
features of each layer, which can then be used to train the prediction heads of
downstream tasks. As VQT keeps the intermediate features intact and only learns
to combine them, it enjoys memory efficiency in training, compared to many
other parameter-efficient fine-tuning approaches that learn to adapt features
and need back-propagation through the entire backbone. This also suggests the
complementary role between VQT and those approaches in transfer learning.
Empirically, VQT consistently surpasses the state-of-the-art approach that
utilizes intermediate features for transfer learning and outperforms full
fine-tuning in many cases. Compared to parameter-efficient approaches that
adapt features, VQT achieves much higher accuracy under memory constraints.
Most importantly, VQT is compatible with these approaches to attain even higher
accuracy, making it a simple add-on to further boost transfer learning.
- Abstract(参考訳): 事前トレーニングされたモデルの中間機能は、モデルバックボーンが凍結されている場合でも、下流タスクの正確な予測に役立っていることが示されている。
重要な課題は、これらの中間機能をどのように活用するかだ。
視覚変換器の中間的特徴を集約するシンプルな手法として視覚クエリチューニング(VQT)を提案する。
学習可能な ``query'' トークンを各レイヤに導入することで、VQT は Transformers の内部動作を活用して、各レイヤの ``summarize' の豊富な中間機能を実現し、下流タスクの予測ヘッドをトレーニングすることができる。
vqtは中間機能をそのまま維持し、それらを組み合わせることのみを学習するので、他の多くのパラメータ効率の良い微調整アプローチと比較して、トレーニングでのメモリ効率が向上する。
このことは、転移学習におけるVQTとそれらのアプローチの相補的な役割を示唆している。
実証的には、VQTはトランスファーラーニングの中間機能を利用する最先端のアプローチを一貫して上回り、多くの場合、完全な微調整よりも優れている。
特徴に適応するパラメータ効率のアプローチと比較して、VQTはメモリ制約下ではるかに高い精度を達成する。
最も重要な点として、VQTはこれらのアプローチと互換性があり、さらに高い精度を達成することができる。
関連論文リスト
- Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキストと視覚分岐における表現のアライメントを改善するため,MSTA(Multi-modal Spatio-supervised)を提案する。
提案手法の有効性は,ゼロショット転送,少数ショット学習,ベース・ツー・ヴァリアント,完全言語学習の4つの課題にまたがる。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both
Language and Vision-and-Language Tasks [38.43269863509866]
パラメータ効率のよい微調整をいかに行うかは、素早い移動学習と展開においてかなり重要になっている。
我々は、純粋言語とV&Lタスクの両方で効果的に機能する新しいパラメータ効率変換学習フレームワークを設計する。
提案フレームワークは,マルチタスク学習におけるトレーニング可能なパラメータを少なくし,最先端の手法に比べて優れた性能と伝達能力を実現している。
論文 参考訳(メタデータ) (2022-03-08T06:51:33Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。