論文の概要: One-stage Prompt-based Continual Learning
- arxiv url: http://arxiv.org/abs/2402.16189v1
- Date: Sun, 25 Feb 2024 20:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:05:27.572895
- Title: One-stage Prompt-based Continual Learning
- Title(参考訳): ワンステージプロンプト型連続学習
- Authors: Youngeun Kim, Yuhang Li, Priyadarshini Panda
- Abstract要約: 本稿では,中間層にトークンを埋め込んだ一段階PCLフレームワークを提案する。
この設計では、クエリViTのための追加フィードフォワードステージの必要性を排除し、トレーニングと推論の両方において50%の計算コストを削減し、限界精度が1%低下する。
また、プロンプトクエリとプロンプトプールの関係を制御し、表現力を向上させるクエリプール正規化(QR)の損失も導入する。
- 参考スコア(独自算出の注目度): 28.16367077640025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-based Continual Learning (PCL) has gained considerable attention as a
promising continual learning solution as it achieves state-of-the-art
performance while preventing privacy violation and memory overhead issues.
Nonetheless, existing PCL approaches face significant computational burdens
because of two Vision Transformer (ViT) feed-forward stages; one is for the
query ViT that generates a prompt query to select prompts inside a prompt pool;
the other one is a backbone ViT that mixes information between selected prompts
and image tokens. To address this, we introduce a one-stage PCL framework by
directly using the intermediate layer's token embedding as a prompt query. This
design removes the need for an additional feed-forward stage for query ViT,
resulting in ~50% computational cost reduction for both training and inference
with marginal accuracy drop < 1%. We further introduce a Query-Pool
Regularization (QR) loss that regulates the relationship between the prompt
query and the prompt pool to improve representation power. The QR loss is only
applied during training time, so there is no computational overhead at
inference from the QR loss. With the QR loss, our approach maintains ~ 50%
computational cost reduction during inference as well as outperforms the prior
two-stage PCL methods by ~1.4% on public class-incremental continual learning
benchmarks including CIFAR-100, ImageNet-R, and DomainNet.
- Abstract(参考訳): プロンプトベースの連続学習(PCL)は、プライバシー侵害やメモリオーバーヘッドの問題を防止しつつ、最先端のパフォーマンスを達成するため、有望な継続的学習ソリューションとしてかなりの注目を集めている。
それにもかかわらず、既存のpclアプローチは、2つのvision transformer (vit)フィードフォワードステージ、ひとつはプロンプトプール内のプロンプトを選択するプロンプトクエリを生成するクエリvit、もうひとつは選択されたプロンプトとイメージトークンの間で情報を混合するbackbone vitである。
そこで本研究では,中間層のトークン埋め込みを直接インプットクエリとして利用することにより,一段階PCLフレームワークを提案する。
この設計により、クエリvitのフィードフォワードステージを追加する必要がなくなり、トレーニングと推論の両方の計算コストが約50%削減され、精度が1%低下する。
さらに,プロンプトクエリとプロンプトプールの関係を規定するクエリプール正規化(qr)損失を導入し,表現力の向上を図る。
QR損失はトレーニング時間にのみ適用されるため、QR損失からの推論時の計算オーバーヘッドは発生しない。
CIFAR-100, ImageNet-R, DomainNet などの公開クラス増分学習ベンチマークでは, QR損失により, 推論中に約50%の計算コスト削減が達成され, 従来の2段階PCL法よりも1.4%向上した。
関連論文リスト
- AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution [53.23803932357899]
我々は、処理時間を数時間から秒に短縮する最初のオンザフライ適応量子化フレームワークを導入する。
我々は,従来の適応量子化法と競合する性能を実現し,処理時間をx2000で高速化する。
論文 参考訳(メタデータ) (2024-04-04T08:37:27Z) - SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced
Token Detection [49.43407207482008]
SpacTorは、スパン汚職(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目標からなる新しいトレーニング手順である。
各種NLPタスクにおけるエンコーダ・デコーダアーキテクチャ(T5)による実験では、SpacTor-T5は標準のSCプリトレーニングと同じダウンストリーム性能が得られる。
論文 参考訳(メタデータ) (2024-01-24T00:36:13Z) - Distillation Improves Visual Place Recognition for Low-Quality Queries [11.383202263053379]
クエリ画像やビデオをサーバにストリーミングして視覚的位置認識を行うと、解像度が低下したり、量子化が増大する。
本稿では、ディープラーニングに基づくVPRのための優れた特徴表現を抽出するために、訓練中のみ高品質なクエリを使用する方法を提案する。
実験結果に示すように、低品質なクエリよりも顕著なVPRリコール率の向上を実現している。
論文 参考訳(メタデータ) (2023-10-10T18:03:29Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Fast and Private Inference of Deep Neural Networks by Co-designing Activation Functions [26.125340303868335]
現在のアプローチは大きな推論時間に悩まされている。
推論モデルと精度を競合させる新しいトレーニングアルゴリズムを提案する。
我々の評価では、最大2300万のパラメータを持つ大規模モデルにおいて、推論時間の3ドルから110倍のスピードアップが示されています。
論文 参考訳(メタデータ) (2023-06-14T14:38:25Z) - Enhanced Training of Query-Based Object Detection via Selective Query
Recollection [35.3219210570517]
本稿では,問合せ型オブジェクト検出器が最終復号段階で誤予測し,中間段階で正確に予測する現象について検討する。
我々は、クエリに基づくオブジェクト検出のためのシンプルで効果的なトレーニング戦略であるSelective Query Recollectionを設計し、提示する。
論文 参考訳(メタデータ) (2022-12-15T02:45:57Z) - PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition [78.67749936030219]
Prune-Adjust-Re-Prune (PARP) は、より優れたASR性能を実現するための細工品を発見する。
低リソースの英語および多言語ASRの実験では、事前訓練された音声SSLにスパースワークが存在する。
論文 参考訳(メタデータ) (2021-06-10T17:32:25Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z) - Pre-Training for Query Rewriting in A Spoken Language Understanding
System [14.902583546933563]
まず、クエリ書き換えのためのニューラル検索に基づくアプローチを提案する。
そして、事前学習された文脈言語埋め込みの成功に触発されて、言語モデリング(LM)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-13T16:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。