論文の概要: Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters
- arxiv url: http://arxiv.org/abs/2311.18763v1
- Date: Thu, 30 Nov 2023 18:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:22:22.850890
- Title: Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters
- Title(参考訳): STAMINAによる連続拡散:Stack-and-Maskインクリメンタルアダプタ
- Authors: James Seale Smith, Yen-Chang Hsu, Zsolt Kira, Yilin Shen, Hongxia Jin
- Abstract要約: 近年の研究では、テキストから画像への拡散モデルを複数の微細な概念に逐次的にカスタマイズできることが示されている。
我々は、新しいタスクを学習する能力が、長いシーケンスで飽和に達することを示す。
本稿では,低ランクの注意マーク付きアダプタとカスタマイズトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を提案する。
- 参考スコア(独自算出の注目度): 72.18914218115388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has demonstrated a remarkable ability to customize text-to-image
diffusion models to multiple, fine-grained concepts in a sequential (i.e.,
continual) manner while only providing a few example images for each concept.
This setting is known as continual diffusion. Here, we ask the question: Can we
scale these methods to longer concept sequences without forgetting? Although
prior work mitigates the forgetting of previously learned concepts, we show
that its capacity to learn new tasks reaches saturation over longer sequences.
We address this challenge by introducing a novel method, STack-And-Mask
INcremental Adapters (STAMINA), which is composed of low-ranked
attention-masked adapters and customized MLP tokens. STAMINA is designed to
enhance the robust fine-tuning properties of LoRA for sequential concept
learning via learnable hard-attention masks parameterized with low rank MLPs,
enabling precise, scalable learning via sparse adaptation. Notably, all
introduced trainable parameters can be folded back into the model after
training, inducing no additional inference parameter costs. We show that
STAMINA outperforms the prior SOTA for the setting of text-to-image continual
customization on a 50-concept benchmark composed of landmarks and human faces,
with no stored replay data. Additionally, we extended our method to the setting
of continual learning for image classification, demonstrating that our gains
also translate to state-of-the-art performance in this standard benchmark.
- Abstract(参考訳): 近年の研究では、テキストから画像への拡散モデルを連続的な(すなわち連続的な)方法で複数のきめ細かい概念にカスタマイズする能力が実証されている。
この設定は連続拡散として知られている。
これらのメソッドを忘れずに、より長い概念シーケンスにスケールできますか?
先行研究は学習した概念の放棄を緩和するが,新しいタスクを学習する能力はより長いシーケンスで飽和に達することを示した。
本稿では,低ランクアテンションマスキングアダプタとカスタマイズMLPトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を導入することで,この問題に対処する。
STAMINAは、低ランクのMLPでパラメータ化された学習可能なハードアテンションマスクを介して、シーケンシャルな概念学習のためのLoRAの堅牢な微調整特性を強化するために設計されており、スパース適応による正確でスケーラブルな学習を可能にする。
特に、導入されたトレーニング可能なパラメータはすべて、トレーニング後にモデルに折り返し、追加の推論パラメータコストを発生させない。
ランドマークと人間の顔からなる50概念のベンチマークにおいて,テキストと画像の連続的なカスタマイズの設定において,STAMINAは従来のSOTAよりも優れており,再生データが保存されていない。
さらに,本手法を画像分類のための連続学習の設定に拡張し,この標準ベンチマークで得られた成果が最先端のパフォーマンスにも変換できることを実証した。
関連論文リスト
- CEAT: Continual Expansion and Absorption Transformer for Non-Exemplar
Class-Incremental Learning [34.59310641291726]
現実のアプリケーションでは、動的シナリオは、古い知識を忘れずに新しいタスクを継続的に学習する能力を持つ必要がある。
連続膨張吸収変圧器(CEAT)という新しいアーキテクチャを提案する。
このモデルは、凍結した前のパラメータと平行に拡散層を拡張することで、新しい知識を学ぶことができる。
モデルの学習能力を向上させるために,特徴空間における古クラスと新クラスの重複を低減するために,新しいプロトタイプを設計した。
論文 参考訳(メタデータ) (2024-03-11T12:40:12Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - DiffusePast: Diffusion-based Generative Replay for Class Incremental
Semantic Segmentation [73.54038780856554]
クラスインクリメンタルセマンティック(CISS)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。
これは、事前訓練されたGANから生成された古いクラスサンプルを再生するものである。
そこで我々はDiffusePastを提案する。DiffusePastは拡散型生成再生モジュールを特徴とする新しいフレームワークで、異なる命令でより信頼性の高いマスクで意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2023-08-02T13:13:18Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion
with C-LoRA [73.25715057309768]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z) - Fine-tuning Image Transformers using Learnable Memory [14.478892724736404]
学習可能なメモリトークンを用いた視覚変換器モデルの拡張を提案する。
当社のアプローチでは,パラメータの少ないモデルで,新たなタスクに適応することが可能です。
層ごとのトークン数が少ないモデルの拡張は精度を著しく向上させることを示す。
論文 参考訳(メタデータ) (2022-03-29T05:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。