論文の概要: One-stage Prompt-based Continual Learning
- arxiv url: http://arxiv.org/abs/2402.16189v1
- Date: Sun, 25 Feb 2024 20:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:05:27.572895
- Title: One-stage Prompt-based Continual Learning
- Title(参考訳): ワンステージプロンプト型連続学習
- Authors: Youngeun Kim, Yuhang Li, Priyadarshini Panda
- Abstract要約: 本稿では,中間層にトークンを埋め込んだ一段階PCLフレームワークを提案する。
この設計では、クエリViTのための追加フィードフォワードステージの必要性を排除し、トレーニングと推論の両方において50%の計算コストを削減し、限界精度が1%低下する。
また、プロンプトクエリとプロンプトプールの関係を制御し、表現力を向上させるクエリプール正規化(QR)の損失も導入する。
- 参考スコア(独自算出の注目度): 28.16367077640025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-based Continual Learning (PCL) has gained considerable attention as a
promising continual learning solution as it achieves state-of-the-art
performance while preventing privacy violation and memory overhead issues.
Nonetheless, existing PCL approaches face significant computational burdens
because of two Vision Transformer (ViT) feed-forward stages; one is for the
query ViT that generates a prompt query to select prompts inside a prompt pool;
the other one is a backbone ViT that mixes information between selected prompts
and image tokens. To address this, we introduce a one-stage PCL framework by
directly using the intermediate layer's token embedding as a prompt query. This
design removes the need for an additional feed-forward stage for query ViT,
resulting in ~50% computational cost reduction for both training and inference
with marginal accuracy drop < 1%. We further introduce a Query-Pool
Regularization (QR) loss that regulates the relationship between the prompt
query and the prompt pool to improve representation power. The QR loss is only
applied during training time, so there is no computational overhead at
inference from the QR loss. With the QR loss, our approach maintains ~ 50%
computational cost reduction during inference as well as outperforms the prior
two-stage PCL methods by ~1.4% on public class-incremental continual learning
benchmarks including CIFAR-100, ImageNet-R, and DomainNet.
- Abstract(参考訳): プロンプトベースの連続学習(PCL)は、プライバシー侵害やメモリオーバーヘッドの問題を防止しつつ、最先端のパフォーマンスを達成するため、有望な継続的学習ソリューションとしてかなりの注目を集めている。
それにもかかわらず、既存のpclアプローチは、2つのvision transformer (vit)フィードフォワードステージ、ひとつはプロンプトプール内のプロンプトを選択するプロンプトクエリを生成するクエリvit、もうひとつは選択されたプロンプトとイメージトークンの間で情報を混合するbackbone vitである。
そこで本研究では,中間層のトークン埋め込みを直接インプットクエリとして利用することにより,一段階PCLフレームワークを提案する。
この設計により、クエリvitのフィードフォワードステージを追加する必要がなくなり、トレーニングと推論の両方の計算コストが約50%削減され、精度が1%低下する。
さらに,プロンプトクエリとプロンプトプールの関係を規定するクエリプール正規化(qr)損失を導入し,表現力の向上を図る。
QR損失はトレーニング時間にのみ適用されるため、QR損失からの推論時の計算オーバーヘッドは発生しない。
CIFAR-100, ImageNet-R, DomainNet などの公開クラス増分学習ベンチマークでは, QR損失により, 推論中に約50%の計算コスト削減が達成され, 従来の2段階PCL法よりも1.4%向上した。
関連論文リスト
- Task Progressive Curriculum Learning for Robust Visual Question Answering [6.2175732887853545]
トレーニング戦略をシンプルに拡張することで、堅牢なビジュアル質問回答が実現可能であることを初めて示します。
提案手法であるタスクプログレッシブ・カリキュラム・ラーニング(TPCL)では,主課題であるVQA問題をより小さく,より簡単なタスクに分解する。
標準データセットの包括的評価により,TPCLの有効性を示す。
論文 参考訳(メタデータ) (2024-11-26T10:29:47Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:49:07Z) - AdaBM: On-the-Fly Adaptive Bit Mapping for Image Super-Resolution [53.23803932357899]
我々は、処理時間を数時間から秒に短縮する最初のオンザフライ適応量子化フレームワークを導入する。
我々は,従来の適応量子化法と競合する性能を実現し,処理時間をx2000で高速化する。
論文 参考訳(メタデータ) (2024-04-04T08:37:27Z) - SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced
Token Detection [49.43407207482008]
SpacTorは、スパン汚職(SC)とトークン置換検出(RTD)を組み合わせたハイブリッド目標からなる新しいトレーニング手順である。
各種NLPタスクにおけるエンコーダ・デコーダアーキテクチャ(T5)による実験では、SpacTor-T5は標準のSCプリトレーニングと同じダウンストリーム性能が得られる。
論文 参考訳(メタデータ) (2024-01-24T00:36:13Z) - DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for
In-Context Learning [66.85379279041128]
そこで本研究では,Dual Queries と Low-rank approximation Re- rank を利用して,文脈内学習のための例を自動選択するフレームワークを提案する。
DQ-LoRe は GPT-4 の自動選択において最先端の手法よりも優れ、92.5% から94.2% まで性能が向上した。
論文 参考訳(メタデータ) (2023-10-04T16:44:37Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Fast and Private Inference of Deep Neural Networks by Co-designing Activation Functions [26.125340303868335]
現在のアプローチは大きな推論時間に悩まされている。
推論モデルと精度を競合させる新しいトレーニングアルゴリズムを提案する。
我々の評価では、最大2300万のパラメータを持つ大規模モデルにおいて、推論時間の3ドルから110倍のスピードアップが示されています。
論文 参考訳(メタデータ) (2023-06-14T14:38:25Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。