論文の概要: CAT: Contrastive Adapter Training for Personalized Image Generation
- arxiv url: http://arxiv.org/abs/2404.07554v2
- Date: Wed, 23 Oct 2024 07:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:53:45.044828
- Title: CAT: Contrastive Adapter Training for Personalized Image Generation
- Title(参考訳): CAT:パーソナライズされた画像生成のためのコントラスト適応学習
- Authors: Jae Wan Park, Sang Hyun Park, Jun Young Koh, Junha Lee, Min Song,
- Abstract要約: コントラスト適応訓練(Contrastive Adapter Training, CAT)を提案し, CAT損失を応用してアダプタトレーニングを強化する。
提案手法は,モデルがアダプタを開始する際に,ベースモデルの本来の知識の保存を容易にする。
- 参考スコア(独自算出の注目度): 4.093428697109545
- License:
- Abstract: The emergence of various adapters, including Low-Rank Adaptation (LoRA) applied from the field of natural language processing, has allowed diffusion models to personalize image generation at a low cost. However, due to the various challenges including limited datasets and shortage of regularization and computation resources, adapter training often results in unsatisfactory outcomes, leading to the corruption of the backbone model's prior knowledge. One of the well known phenomena is the loss of diversity in object generation, especially within the same class which leads to generating almost identical objects with minor variations. This poses challenges in generation capabilities. To solve this issue, we present Contrastive Adapter Training (CAT), a simple yet effective strategy to enhance adapter training through the application of CAT loss. Our approach facilitates the preservation of the base model's original knowledge when the model initiates adapters. Furthermore, we introduce the Knowledge Preservation Score (KPS) to evaluate CAT's ability to keep the former information. We qualitatively and quantitatively compare CAT's improvement. Finally, we mention the possibility of CAT in the aspects of multi-concept adapter and optimization.
- Abstract(参考訳): 自然言語処理の分野から応用されたローランド適応(LoRA)を含む様々なアダプタの出現により、拡散モデルにより画像生成を低コストでパーソナライズできるようになった。
しかしながら、データセットの制限や正規化や計算資源の不足など、さまざまな課題のため、アダプタトレーニングは満足できない結果をもたらすことが多く、バックボーンモデルの事前知識の破損につながる。
良く知られた現象の1つは、オブジェクト生成における多様性の欠如である。
これにより、生成能力に課題が生じる。
この問題を解決するために,コントラスト適応訓練(Contrastive Adapter Training, CAT)を提案する。
提案手法は,モデルがアダプタを開始する際に,ベースモデルの本来の知識の保存を容易にする。
さらに,従来の情報を保持するCATの能力を評価するために,知識保存スコア(KPS)を導入する。
我々はCATの改善を質的に定量的に比較する。
最後に、マルチコンセプトアダプタと最適化の側面におけるCATの可能性について述べる。
関連論文リスト
- Auto-selected Knowledge Adapters for Lifelong Person Re-identification [54.42307214981537]
Lifelong Person Re-Identificationは、異なる時間と場所にわたる重複しないデータセットから継続的に学習するシステムを必要とする。
リハーサルのない、あるいはリハーサルベースの既存のアプローチは、依然として破滅的な忘れ込みの問題に悩まされている。
本稿では,知識アダプタを採用した新しいフレームワークであるAdalReIDと,生涯学習のためのパラメータフリー自動選択機構を提案する。
論文 参考訳(メタデータ) (2024-05-29T11:42:02Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Domain Generalization Using Large Pretrained Models with
Mixture-of-Adapters [35.834509022013435]
ドメイン一般化(DG)アルゴリズムは、異なる分布上で訓練されたモデルの性能を維持することを目的としている。
我々は、Mix of-Adapters (MoA) と呼ばれる、Mix of-Exertベースのアダプタ微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-17T07:01:24Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Category Adaptation Meets Projected Distillation in Generalized Continual Category Discovery [0.9349784561232036]
Generalized Continual Category Discovery (GCCD)は、シーケンシャルに到着し、部分的にラベル付けされたデータセットから学ぶことに取り組む。
本稿では,学習可能なプロジェクタと特徴蒸留を統合し,過去の知識を犠牲にすることなくモデル適応性を向上する手法を提案する。
それぞれのコンポーネントが個別に穏やかなメリットを提供する一方で、その組み合わせであるCAMPは、新しい情報学習と古い情報保持のバランスを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-23T13:02:52Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - CATs++: Boosting Cost Aggregation with Convolutions and Transformers [31.22435282922934]
本稿では,変換器を用いたコストアグリゲーション(CAT)を導入し,初期相関マップ間のグローバルコンセンサスを探索する。
また、標準変圧器の使用による計算コストの増大など、CATが直面する可能性のあるいくつかの制約を緩和するため、CATs++を提案する。
提案手法は従来の最先端手法を大きなマージンで上回り、全てのベンチマークに対して新しい最先端手法を設定できる。
論文 参考訳(メタデータ) (2022-02-14T15:54:58Z) - Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文 参考訳(メタデータ) (2021-08-28T06:32:42Z) - Zoo-Tuning: Adaptive Transfer from a Zoo of Models [82.9120546160422]
Zoo-Tuningは、事前訓練されたモデルのパラメータをターゲットタスクに適応的に転送することを学ぶ。
我々は、強化学習、画像分類、顔のランドマーク検出など、様々なタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-29T14:09:45Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。