論文の概要: X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model
- arxiv url: http://arxiv.org/abs/2312.02238v3
- Date: Tue, 23 Apr 2024 07:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:35:42.461810
- Title: X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model
- Title(参考訳): X-Adapter: アップグレード拡散モデルのためのプラグインのユニバーサル互換性の追加
- Authors: Lingmin Ran, Xiaodong Cun, Jia-Wei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou,
- Abstract要約: X-Adapterは、アップグレードされたテキスト・ツー・イメージ拡散モデルで直接動作する普遍的なアップグレード器である。
X-Adapterは、異なるプラグインのコネクタを保持するために、古いモデルの凍結したコピーを保持する。
- 参考スコア(独自算出の注目度): 41.17739627752261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce X-Adapter, a universal upgrader to enable the pretrained plug-and-play modules (e.g., ControlNet, LoRA) to work directly with the upgraded text-to-image diffusion model (e.g., SDXL) without further retraining. We achieve this goal by training an additional network to control the frozen upgraded model with the new text-image data pairs. In detail, X-Adapter keeps a frozen copy of the old model to preserve the connectors of different plugins. Additionally, X-Adapter adds trainable mapping layers that bridge the decoders from models of different versions for feature remapping. The remapped features will be used as guidance for the upgraded model. To enhance the guidance ability of X-Adapter, we employ a null-text training strategy for the upgraded model. After training, we also introduce a two-stage denoising strategy to align the initial latents of X-Adapter and the upgraded model. Thanks to our strategies, X-Adapter demonstrates universal compatibility with various plugins and also enables plugins of different versions to work together, thereby expanding the functionalities of diffusion community. To verify the effectiveness of the proposed method, we conduct extensive experiments and the results show that X-Adapter may facilitate wider application in the upgraded foundational diffusion model.
- Abstract(参考訳): プリトレーニング済みのプラグイン・アンド・プレイモジュール(例: ControlNet, LoRA)を、拡張されたテキスト・ツー・イメージ拡散モデル(例: SDXL)と直接連携できるユニバーサル・アップグレード器であるX-Adapterを導入する。
我々は、新しいテキストイメージデータペアで凍結されたアップグレードモデルを制御するために、追加のネットワークをトレーニングすることで、この目標を達成する。
詳細は、X-Adapterが古いモデルの凍結したコピーを保持して、異なるプラグインのコネクタを保存する。
さらに、X-Adapterは、異なるバージョンのモデルからデコーダをブリッジするトレーニング可能なマッピングレイヤを追加し、機能の再マッピングを行う。
リマップされた機能は、アップグレードされたモデルのガイダンスとして使用される。
X-Adapterの誘導能力を高めるために、アップグレードされたモデルに対してnull-textトレーニング戦略を採用する。
トレーニング後,X-Adapterの初期適応とアップグレードモデルを調整するために,2段階のデノナイジング戦略を導入する。
我々の戦略のおかげで、X-Adapterは様々なプラグインとの普遍的な互換性を示し、異なるバージョンのプラグインを一緒に動作させることで、拡散コミュニティの機能を拡張することができます。
提案手法の有効性を検証するため,我々は広範囲な実験を行い,X-Adapterは改良された基礎拡散モデルにおいてより広範な適用を促進できることを示した。
関連論文リスト
- RE-Adapt: Reverse Engineered Adaptation of Large Language Models [37.969478059005574]
既存の命令チューニングを劣化させることなく、新しいドメイン上で大きな言語モデルを微調整するアプローチであるRE-Adaptを導入する。
我々は、命令チューニングされたモデルが学習したことを、対応する事前学習ベースモデルを超えて分離するアダプタをリバースエンジニアリングする。
すると、新しいドメインのベースモデルを微調整して、リバースエンジニアリングされたアダプタで命令の順に読み込むことができます。
論文 参考訳(メタデータ) (2024-05-23T19:23:40Z) - Adapters: A Unified Library for Parameter-Efficient and Modular Transfer
Learning [109.25673110120906]
本稿では,大規模言語モデルにおけるパラメータ効率とモジュール移動学習を統一したオープンソースのライブラリであるAdaptersを紹介する。
10の多様なアダプタメソッドを統一インターフェースに統合することにより、Adaptersは使いやすさとフレキシブルな設定を提供する。
論文 参考訳(メタデータ) (2023-11-18T13:53:26Z) - IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image
Diffusion Models [11.105763635691641]
テキストプロンプトの代替として、画像プロンプトがある。
我々は、事前訓練されたテキスト・画像拡散モデルに対して、画像のプロンプト機能を実現するための、効果的で軽量なアダプタであるIP-Adapterを提案する。
論文 参考訳(メタデータ) (2023-08-13T08:34:51Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Shape Adaptor: A Learnable Resizing Module [59.940372879848624]
ニューラルネットワークのための新しいリサイズモジュール: 従来のリサイズ層上に構築されたドロップインエンハンスメントであるシェイプアダプタを提案する。
我々の実装では、追加の監督なしに形状適応器をエンドツーエンドで訓練することが可能です。
ネットワーク圧縮と伝達学習の2つの応用における形状適応器の有効性を示す。
論文 参考訳(メタデータ) (2020-08-03T14:15:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。